Article

Google DeepMind DiffusionGemma: 4x schneller als herkömmliche LLMs

June 11, 2026 google deepmind diffusiongemma llm diffusion open-source

Parallele Textgenerierung

Google DeepMind hat DiffusionGemma veröffentlicht – ein neues Mitglied der Gemma-4-Familie, das Text fundamental anders generiert als herkömmliche LLMs.

Statt Token für Token von links nach rechts (autoregressiv), nutzt DiffusionGemma einen Diffusions-Ansatz: Das Modell startet mit einem “verrauschten” Canvas aus Platzhalter-Tokens und verfeinert diesen iterativ bis zum finalen Textblock.

Performance-Daten

26 Milliarden Parameter (MoE mit 3.8B aktivierten Parametern)
700+ Token/Sekunde auf RTX 5090
1000+ Token/Sekunde auf Nvidia H100
4x schneller als vergleichbare autoregressive Gemma-Modelle

Vorteile

Der Diffusions-Ansatz verlagert den Flaschenhals von Speicherbandbreite zu Rechenleistung. Das ermöglicht:

Bis zu 256 Token parallel generieren
Bessere Performance bei nicht-linearen Aufgaben (Editieren, Mathematik)
Sudoku-artige Probleme lösen durch Selbstkorrektur

Verfügbarkeit

DiffusionGemma ist als Open-Source-Modell verfügbar und kann auf Gaming-GPUs mit 18GB VRAM laufen.