Article

DeepSeek-V4 mit Millionen-Token-Kontext für Agenten

May 26, 2026

DeepSeek hat mit V4 ein Model veröffentlicht, das einen Millionen-Token-Kontext nicht nur verspricht, sondern tatsächlich nutzbar macht. Die Architektur ist speziell für langlaufende Agenten-Workloads optimiert - ein Problem, das bisher alle Frontier-Modelle zum Stillstand bringt.

Die Modelle

Zwei MoE-Varianten stehen auf HuggingFace bereit:

DeepSeek-V4-Pro: 1,6T Gesamtparameter, 49B aktiv pro Token
DeepSeek-V4-Flash: 284B Gesamtparameter, 13B aktiv pro Token

Beide bieten ein 1M-Token-Kontextfenster. Die Benchmark-Ergebnisse sind konkurrenzfähig, aber nicht State-of-the-Art. Das ist jedoch nicht der Punkt.

Das Agenten-Problem

Agenten-Workloads scheitern heute an vorhersehbaren Grenzen. Der Kontext läuft voll, der KV-Cache sprengt den GPU-Speicher, und Tool-Call-Latenzen degradieren mitten in langen Aufgaben. V4 ist explizit gebaut, um diese bekannten Ausfallpunkte zu adressieren.

Die Zahlen sprechen für sich: DeepSeek-V4-Pro benötigt nur 27% der Per-Token-Inference-FLOPs gegenüber V3.2 und nutzt nur 10% der KV-Cache-Größe. Flash geht noch weiter: 10% FLOPs, 7% Cache. Im Vergleich zu klassischer Grouped-Query-Attention sinkt der Cache auf etwa 2%.

Hybrid Attention Architektur

Der Effizienz-Gewinn stammt aus einer gesplitteten Attention-Architektur. Compressed Sparse Attention (CSA) komprimiert KV-Entries um 4x entlang der Sequenz-Dimension durch Softmax-gated Pooling mit gelerntem Positional-Bias. Ein Lightning-Indexer wählt die Top-k komprimierten Blöcke pro Query.

Die zweite Komponente, Hierarchical Chunk Attention (HCA), organisiert den Kontext in Hierarchien mit abnehmender Granularität. Nahe Tokens werden mit voller Attention verarbeitet, entfernte mit komprimierten Repräsentationen.

Praktische Bedeutung

Für Entwickler bedeutet dies, dass Agenten endlich lange Tool-Trajektorien durchhalten können. SWE-Bench-Runs, Multi-Step-Browsing-Sessions, oder Terminal-Sessions mit hunderten von Kommandos werden praktikabel. Das 1M-Fenster ist nicht mehr nur Marketing, sondern ein Nutzen-versprechendes Feature.

Original-Quelle

HuggingFace Blog: DeepSeek-V4