Article
Google DeepMind DiffusionGemma: 4x schneller als herkömmliche LLMs
Parallele Textgenerierung
Google DeepMind hat DiffusionGemma veröffentlicht – ein neues Mitglied der Gemma-4-Familie, das Text fundamental anders generiert als herkömmliche LLMs.
Statt Token für Token von links nach rechts (autoregressiv), nutzt DiffusionGemma einen Diffusions-Ansatz: Das Modell startet mit einem “verrauschten” Canvas aus Platzhalter-Tokens und verfeinert diesen iterativ bis zum finalen Textblock.
Performance-Daten
- 26 Milliarden Parameter (MoE mit 3.8B aktivierten Parametern)
- 700+ Token/Sekunde auf RTX 5090
- 1000+ Token/Sekunde auf Nvidia H100
- 4x schneller als vergleichbare autoregressive Gemma-Modelle
Vorteile
Der Diffusions-Ansatz verlagert den Flaschenhals von Speicherbandbreite zu Rechenleistung. Das ermöglicht:
- Bis zu 256 Token parallel generieren
- Bessere Performance bei nicht-linearen Aufgaben (Editieren, Mathematik)
- Sudoku-artige Probleme lösen durch Selbstkorrektur
Verfügbarkeit
DiffusionGemma ist als Open-Source-Modell verfügbar und kann auf Gaming-GPUs mit 18GB VRAM laufen.