Article

DeepSeek-V4: 1 Million Token Context endlich nutzbar

May 14, 2026 DeepSeek LLM Agents Long-Context Open Source

DeepSeek hat V4 veröffentlicht und die Benchmarks sind beeindruckend, aber nicht SOTA. Das ist aber gar nicht der Punkt. Die wahre Innovation liegt in der Architektur, die extrem lange Kontexte tatsächlich praktisch nutzbar macht - speziell für Agenten-Workloads.

Das Problem mit langem Kontext

Ein 1M Token Context Window ist nur Kapazität, nicht Performance. Bei Agenten, die lange Tool-Use-Trajektorien durchlaufen, wird jedes Tool-Ergebnis an den Kontext angehängt. Jeder nachfolgende Token zahlt die volle Attention-Kosten gegen alles bisherige.

Zwei Zahlen sind entscheidend: Single-Token-Inference-FLOPs und KV-Cache-Größe. Beide wachsen mit der Sequenzlänge. Bei 1M Tokens benötigt DeepSeek-V4-Pro nur 27% der Single-Token-Inference-FLOPs im Vergleich zu V3.2. Der KV-Cache braucht nur 10% des Speichers. V4-Flash senkt das weiter: 10% FLOPs, 7% KV-Cache.

Hybrid Attention: CSA und HCA

Die Effizienz kommt durch zweiAttention-Mechanismen, die über die Layer alternieren:

Compressed Sparse Attention (CSA) komprimiert KV-Einträge 4x entlang der Sequenzdimension durch Softmax-Gated-Pooling mit gelerntem Positions-Bias. Ein Lightning-Indexer wählt die top-k komprimierten Blöcke pro Query aus.

Heavily Compressed Attention (HCA) komprimiert 128x und nutzt dichte Attention über die komprimierten Blöcke. Die komprimierte Sequenz ist kurz genug, dass dichte Attention billig wird.

Beide Pfade nutzen FP8-Speicher für die meisten KV-Einträge und BF16 nur für RoPE-Dimensionen. Der Lightning-Indexer läuft in FP4.

Was das für Agents bedeutet

DeepSeek hat V4 explizit für fehlgeschlagene Agenten-Workloads konzipiert: Modelle stoppen mid-task, Traces sprengen das Context-Budget, KV-Caches füllen die GPU, Tool-Call-Round-Trips degradieren bei langen Tasks.

Die Architektur macht diese bekannten Failures behandelbar. Das ist wichtiger als ein paar Punkte mehr auf einem Benchmark.

Verfügbarkeit: DeepSeek-V4-Pro (1.6T total, 49B active) und DeepSeek-V4-Flash (284B total, 13B active) auf HuggingFace.

Original: HuggingFace Blog