Models

DeepSeek-V4: Millionen-Token-Kontext终于 nutzbar für Agenten

April 24, 2026 models deepseek agents context efficient-inference

Nicht die Benchmarks zählen – die Effizienz

DeepSeek hat V4 veröffentlicht: zwei MoE-Modelle (DeepSeek-V4-Pro mit 1.6T/49B und DeepSeek-V4-Flash mit 284B/13B), beide mit 1 Million Token Kontext. Die Benchmarks sind kompetitiv, aber nicht SOTA. Das ist aber nicht der Punkt.

Das echte Problem: Agenten scheitern vorhersehbar. Das Modell stoppt mid-task. Der Trace sprengt das Context-Budget. Der KV-Cache füllt die GPU. Tool-Call-Roundtrips degradieren nach Hunderten von Befehlen. V4 wurde gebaut, um diese bekannten Failures zu fixen.

Die Hybrid-Attention-Innovation:

Zwei Mechanismen arbeiten zusammen:

Compressed Sparse Attention (CSA): Komprimiert KV-Entries 4x und nutzt einen Lightning-Indexer (FP4, ReLU-scored) um die top-k Blöcke pro Query zu finden. Der Search-Space schrumpft mit.
Heavily Compressed Attention (HCA): 128x Kompression ohne Sparse Selection. Dense Attention über den komprimierten Stream wird billig genug.

Die Layer alternieren zwischen CSA und HCA. V4-Pro braucht bei 1M Tokens nur 27% der Inference-FLOPs und 10% des KV-Cache im Vergleich zu V3.2. V4-Flash geht auf 10% FLOPs und 7% KV-Cache.

Agent-spezifische Post-Training:

Der Technical Report beschreibt drei Entscheidungen für Agent-Workloads:

Multi-Token-Prediction für konsistentere Tool-Calls
Extended-CoT-Training für besseres Reasoning
Function-Calling-Alignment für präzise Argumente

Das Fazit: DeepSeek zeigt der Community, wie man Agenten-fähige Modelle baut. Es geht nicht um reine Benchmark-Scores, sondern um effiziente Long-Context-Inference.

→ Original bei Hugging Face

Read Full Article ↗