Article
Subquadratic: 12 Millionen Token Kontext ohne quadratische Kosten
Die Context-Window-Revolution
Die Aufmerksamkeitskosten bei Transformers skalieren quadratisch mit der Kontextlänge. Ein Start-up aus Miami behauptet nun, dieses fundamentale Problem gelöst zu haben: Subquadratic Selective Attention (SSA) skaliert linear – und das bei 12 Millionen Token Kontext.
Die Benchmarks
Auf MRCR v2, dem Multi-Reference Retrieval Benchmark, erreicht Subquadratic 83 Punkte und schlägt damit GPT-5.5 (74 Punkte) und Claude Opus 4.7 (32,2 Punkte). Die Needle-in-Haystack-Retrieval bei 12 Millionen Token liegt bei 92,1%. Das Modell ist 52-mal schneller als dense Attention bei einer Million Token.
Was das bedeutet
Bisher waren RAG, agentic decomposition und hybride Architekturen Workarounds für die quadratische Skalierung. Wenn SSA hält, was es verspricht, könnten diese Kompromisse bald überflüssig sein. Ein Kontext von 50 Millionen Token ist bereits angekündigt.
Die Implikationen für Agenten-Systeme sind enorm: Ganze Codebasen, Dokumentation und Historie könnten in den Kontext passen, ohne komplexe Retrieval-Systems.