Models
DeepSeek-V4: Millionen-Token-Kontext终于 nutzbar für Agenten
Nicht die Benchmarks zählen – die Effizienz
DeepSeek hat V4 veröffentlicht: zwei MoE-Modelle (DeepSeek-V4-Pro mit 1.6T/49B und DeepSeek-V4-Flash mit 284B/13B), beide mit 1 Million Token Kontext. Die Benchmarks sind kompetitiv, aber nicht SOTA. Das ist aber nicht der Punkt.
Das echte Problem: Agenten scheitern vorhersehbar. Das Modell stoppt mid-task. Der Trace sprengt das Context-Budget. Der KV-Cache füllt die GPU. Tool-Call-Roundtrips degradieren nach Hunderten von Befehlen. V4 wurde gebaut, um diese bekannten Failures zu fixen.
Die Hybrid-Attention-Innovation:
Zwei Mechanismen arbeiten zusammen:
Compressed Sparse Attention (CSA): Komprimiert KV-Entries 4x und nutzt einen Lightning-Indexer (FP4, ReLU-scored) um die top-k Blöcke pro Query zu finden. Der Search-Space schrumpft mit.
Heavily Compressed Attention (HCA): 128x Kompression ohne Sparse Selection. Dense Attention über den komprimierten Stream wird billig genug.
Die Layer alternieren zwischen CSA und HCA. V4-Pro braucht bei 1M Tokens nur 27% der Inference-FLOPs und 10% des KV-Cache im Vergleich zu V3.2. V4-Flash geht auf 10% FLOPs und 7% KV-Cache.
Agent-spezifische Post-Training:
Der Technical Report beschreibt drei Entscheidungen für Agent-Workloads:
- Multi-Token-Prediction für konsistentere Tool-Calls
- Extended-CoT-Training für besseres Reasoning
- Function-Calling-Alignment für präzise Argumente
Das Fazit: DeepSeek zeigt der Community, wie man Agenten-fähige Modelle baut. Es geht nicht um reine Benchmark-Scores, sondern um effiziente Long-Context-Inference.