Models
DeepSeek-V4-Flash: 13B aktivierte Parameter für lokale KI
MoE-Effizienz für den Massenmarkt
Neben dem Pro-Modell bringt DeepSeek mit V4-Flash eine kompaktere Variante, die sich an Entwickler mit begrenzter Hardware richtet. Mit 284B Gesamt-Parametern aber nur 13B aktivierten Parametern pro Inference-Durchlauf ist das Modell deutlich ressourcenschonender – bei trotzdem starken Reasoning-Fähigkeiten.
Das Modell nutzt die gleiche Hybrid Attention Architecture wie der Pro-Bruder, erreicht aber bei größeren Denk-Budgets ähnliche Reasoning-Performance. Der Trade-off: Bei reinen Wissens-Aufgaben und komplexen Agenten-Workflows hinkt es natürlicherweise hinterher.
Die Specs im Überblick:
- Gesamtparameter: 284B
- Aktivierte Parameter: 13B (MoE-Specialisierung)
- Kontext: 1M Token
- Precision: FP4 + FP8 Mixed
- Lizenz: MIT (Open-Source)
API-Verfügbarkeit: DeepSeek bietet beide Modelle über ihre API an. Die alte Nomenklatur (deepseek-chat, deepseek-reasoner) wird am 24.07.2026 deprecia- ted – Nutzer migrieren zu deepseek-v4-flash.
Für lokale Deployment-Experimente ist der Flash-Variant besonders attraktiv. Die FP4/FP8-Mixed-Precision reduziert den VRAM-Bedarf deutlich, während die 1M-Token-Kontextlänge auch für längere Dokumente und Conversations ausreichend ist.
Der technische Clou: Die Manifold-Constrained Hyper-Connections (mHC) sorgen für stabilere Signalpropagation über die Schichten – wichtig für die tiefe Architektur von MoE-Modellen. Der Muon-Optimizer beschleunigt das Training und verbessert die Konvergenz.