Article

DeepSeek-V4: Millionen-Token-Kontext für Agenten

DeepSeek KI Agenten Lange-Kontext Open-Source

DeepSeek hat V4 veröffentlicht. Zwei MoE-Checkpoints sind verfügbar: DeepSeek-V4-Pro mit 1.6T Parametern und DeepSeek-V4-Flash mit 284B Parametern. Beide bieten ein 1M-Token-Kontextfenster.

Die Innovation

Die eigentliche Leistung ist nicht der Benchmark-Score – die konkurrieren mit anderen Frontier-Modellen – sondern die effiziente Langkontext-Inferenz. DeepSeek V4 ist explizit für agentische Workloads konstruiert, die heute noch an bekannten Problemen scheitern.

Das KV-Cache-Problem

Ein 1M-Kontextfenster ist Speicherkapazität, nicht Performance. Agenten, die lange Tool-Use-Trajektorien durchlaufen, benötigen effiziente Attention. DeepSeek-V4-Pro braucht nur 27% der Inferenz-FLOPs und 10% des KV-Cache im Vergleich zu V3.2. V4-Flash erreicht sogar 10% FLOPs und 7% KV-Cache.

Hybrid Attention

Die Architektur kombiniert zwei Mechanismen: CSA (Compressed Sparse Attention) mit 4x Kompression und Lightning Indexer, sowie HCA (Heavily Compressed Attention) mit 128x Kompression und dichter Attention. Layer alternieren zwischen beiden, was unterschiedliche Aufmerksamkeitsmuster ermöglicht.

Agenten-Fokus

Post-Training und Infrastruktur sind auf Agenten ausgerichtet mit verlängerten Tool-Trajektorien ohne Qualitätsverlust, speicheroptimierter Inferenz für lange Sessions und effizienten Multi-Turn-Interaktionen.

Originalartikel