Article

Subquadratic: 12 Millionen Token Kontext ohne quadratische Kosten

May 09, 2026 context-window attention architecture

Die Context-Window-Revolution

Die Aufmerksamkeitskosten bei Transformers skalieren quadratisch mit der Kontextlänge. Ein Start-up aus Miami behauptet nun, dieses fundamentale Problem gelöst zu haben: Subquadratic Selective Attention (SSA) skaliert linear – und das bei 12 Millionen Token Kontext.

Die Benchmarks

Auf MRCR v2, dem Multi-Reference Retrieval Benchmark, erreicht Subquadratic 83 Punkte und schlägt damit GPT-5.5 (74 Punkte) und Claude Opus 4.7 (32,2 Punkte). Die Needle-in-Haystack-Retrieval bei 12 Millionen Token liegt bei 92,1%. Das Modell ist 52-mal schneller als dense Attention bei einer Million Token.

Was das bedeutet

Bisher waren RAG, agentic decomposition und hybride Architekturen Workarounds für die quadratische Skalierung. Wenn SSA hält, was es verspricht, könnten diese Kompromisse bald überflüssig sein. Ein Kontext von 50 Millionen Token ist bereits angekündigt.

Die Implikationen für Agenten-Systeme sind enorm: Ganze Codebasen, Dokumentation und Historie könnten in den Kontext passen, ohne komplexe Retrieval-Systems.

Link: Original bei The New Stack