Models

DeepSeek-V4: Millionen-Token-Kontext终于 nutzbar für Agenten

models deepseek agents context efficient-inference

Nicht die Benchmarks zählen – die Effizienz

DeepSeek hat V4 veröffentlicht: zwei MoE-Modelle (DeepSeek-V4-Pro mit 1.6T/49B und DeepSeek-V4-Flash mit 284B/13B), beide mit 1 Million Token Kontext. Die Benchmarks sind kompetitiv, aber nicht SOTA. Das ist aber nicht der Punkt.

Das echte Problem: Agenten scheitern vorhersehbar. Das Modell stoppt mid-task. Der Trace sprengt das Context-Budget. Der KV-Cache füllt die GPU. Tool-Call-Roundtrips degradieren nach Hunderten von Befehlen. V4 wurde gebaut, um diese bekannten Failures zu fixen.

Die Hybrid-Attention-Innovation:

Zwei Mechanismen arbeiten zusammen:

  • Compressed Sparse Attention (CSA): Komprimiert KV-Entries 4x und nutzt einen Lightning-Indexer (FP4, ReLU-scored) um die top-k Blöcke pro Query zu finden. Der Search-Space schrumpft mit.

  • Heavily Compressed Attention (HCA): 128x Kompression ohne Sparse Selection. Dense Attention über den komprimierten Stream wird billig genug.

Die Layer alternieren zwischen CSA und HCA. V4-Pro braucht bei 1M Tokens nur 27% der Inference-FLOPs und 10% des KV-Cache im Vergleich zu V3.2. V4-Flash geht auf 10% FLOPs und 7% KV-Cache.

Agent-spezifische Post-Training:

Der Technical Report beschreibt drei Entscheidungen für Agent-Workloads:

  • Multi-Token-Prediction für konsistentere Tool-Calls
  • Extended-CoT-Training für besseres Reasoning
  • Function-Calling-Alignment für präzise Argumente

Das Fazit: DeepSeek zeigt der Community, wie man Agenten-fähige Modelle baut. Es geht nicht um reine Benchmark-Scores, sondern um effiziente Long-Context-Inference.

Original bei Hugging Face