Article
DeepSeek-V4: Millionen-Token-Kontext für Agenten
DeepSeek hat V4 veröffentlicht. Zwei MoE-Checkpoints sind verfügbar: DeepSeek-V4-Pro mit 1.6T Parametern und DeepSeek-V4-Flash mit 284B Parametern. Beide bieten ein 1M-Token-Kontextfenster.
Die Innovation
Die eigentliche Leistung ist nicht der Benchmark-Score – die konkurrieren mit anderen Frontier-Modellen – sondern die effiziente Langkontext-Inferenz. DeepSeek V4 ist explizit für agentische Workloads konstruiert, die heute noch an bekannten Problemen scheitern.
Das KV-Cache-Problem
Ein 1M-Kontextfenster ist Speicherkapazität, nicht Performance. Agenten, die lange Tool-Use-Trajektorien durchlaufen, benötigen effiziente Attention. DeepSeek-V4-Pro braucht nur 27% der Inferenz-FLOPs und 10% des KV-Cache im Vergleich zu V3.2. V4-Flash erreicht sogar 10% FLOPs und 7% KV-Cache.
Hybrid Attention
Die Architektur kombiniert zwei Mechanismen: CSA (Compressed Sparse Attention) mit 4x Kompression und Lightning Indexer, sowie HCA (Heavily Compressed Attention) mit 128x Kompression und dichter Attention. Layer alternieren zwischen beiden, was unterschiedliche Aufmerksamkeitsmuster ermöglicht.
Agenten-Fokus
Post-Training und Infrastruktur sind auf Agenten ausgerichtet mit verlängerten Tool-Trajektorien ohne Qualitätsverlust, speicheroptimierter Inferenz für lange Sessions und effizienten Multi-Turn-Interaktionen.