Article

DiffusionGemma: 4x schnellere Text-Generierung

June 11, 2026 AI Google Gemma Diffusion LLM Open Source

Ein Paradigmenwechsel in der Text-Generierung

Google hat DiffusionGemma veröffentlicht – ein experimentelles Open-Source-Modell unter Apache 2.0 Lizenz, das die sequentielle Token-für-Token Generierung herkömmlicher LLMs durch parallele Diffusion ersetzt. Das Ergebnis: bis zu 4x schnellere Inference auf dedizierten GPUs.

Technische Spezifikationen

Eigenschaft	Wert
Parameter (Total)	26B (MoE)
Aktive Parameter	3.8B pro Inference
VRAM (quantisiert)	~18GB
Geschwindigkeit	1000+ tok/s (H100), 700+ tok/s (RTX 5090)
Lizenz	Apache 2.0

Diffusion vs. Autoregressive

Der fundamentale Unterschied:

Autoregressive LLMs: Generieren Token sequentiell, speicherbandbreiten-limitiert
Diffusion: Generiert 256 Token parallel pro Forward-Pass, compute-limitiert

Vorteile der Diffusions-Architektur

Bi-direktionale Attention: Jeder Token kann alle anderen sehen – ideal für Code-Infilling, Sudoku, mathematische Strukturen
Selbstkorrektur: Iterative Verfeinerung des gesamten Textblocks
Nicht-lineare Generierung: Perfekt für Editier-Workflows

Quality vs. Speed Trade-off

DiffusionGemma priorisiert Geschwindigkeit über Qualität. Für Produktionsanwendungen mit höchsten Qualitätsanforderungen empfiehlt Google weiterhin Gemma 4.

Use Cases

Inline-Editing: Echtzeit-Textbearbeitung
Code-Infilling: Code-Lücken füllen
Interaktive Workflows: Minimale Latenz für lokale Anwendungen
Sudoku & Constraints: Aufgaben die globale Konsistenz benötigen

Fine-Tuning Beispiel

Unsloth demonstrierte erfolgreich Fine-Tuning auf Sudoku – eine Aufgabe, die für autoregressive Modelle extrem schwierig ist, da jeder Token von zukünftigen Token abhängt.

Verfügbarkeit

DiffusionGemma ist jetzt auf Hugging Face verfügbar. Die Integration in bestehende Workflows erfordert jedoch Anpassungen, da die Diffusions-Architektur nicht Drop-in-kompatibel mit autoregressiven Modellen ist.

Google Blog