Models

DeepSeek-V4-Flash: 13B aktivierte Parameter für lokale KI

April 24, 2026 models deepseek moe efficient local-ai

MoE-Effizienz für den Massenmarkt

Neben dem Pro-Modell bringt DeepSeek mit V4-Flash eine kompaktere Variante, die sich an Entwickler mit begrenzter Hardware richtet. Mit 284B Gesamt-Parametern aber nur 13B aktivierten Parametern pro Inference-Durchlauf ist das Modell deutlich ressourcenschonender – bei trotzdem starken Reasoning-Fähigkeiten.

Das Modell nutzt die gleiche Hybrid Attention Architecture wie der Pro-Bruder, erreicht aber bei größeren Denk-Budgets ähnliche Reasoning-Performance. Der Trade-off: Bei reinen Wissens-Aufgaben und komplexen Agenten-Workflows hinkt es natürlicherweise hinterher.

Die Specs im Überblick:

Gesamtparameter: 284B
Aktivierte Parameter: 13B (MoE-Specialisierung)
Kontext: 1M Token
Precision: FP4 + FP8 Mixed
Lizenz: MIT (Open-Source)

API-Verfügbarkeit: DeepSeek bietet beide Modelle über ihre API an. Die alte Nomenklatur (deepseek-chat, deepseek-reasoner) wird am 24.07.2026 deprecia- ted – Nutzer migrieren zu deepseek-v4-flash.

Für lokale Deployment-Experimente ist der Flash-Variant besonders attraktiv. Die FP4/FP8-Mixed-Precision reduziert den VRAM-Bedarf deutlich, während die 1M-Token-Kontextlänge auch für längere Dokumente und Conversations ausreichend ist.

Der technische Clou: Die Manifold-Constrained Hyper-Connections (mHC) sorgen für stabilere Signalpropagation über die Schichten – wichtig für die tiefe Architektur von MoE-Modellen. Der Muon-Optimizer beschleunigt das Training und verbessert die Konvergenz.

→ Modell bei Hugging Face

Read Full Article ↗