Article

Google DeepMind DiffusionGemma: 4x schneller als herkömmliche LLMs

google deepmind diffusiongemma llm diffusion open-source

Parallele Textgenerierung

Google DeepMind hat DiffusionGemma veröffentlicht – ein neues Mitglied der Gemma-4-Familie, das Text fundamental anders generiert als herkömmliche LLMs.

Statt Token für Token von links nach rechts (autoregressiv), nutzt DiffusionGemma einen Diffusions-Ansatz: Das Modell startet mit einem “verrauschten” Canvas aus Platzhalter-Tokens und verfeinert diesen iterativ bis zum finalen Textblock.

Performance-Daten

  • 26 Milliarden Parameter (MoE mit 3.8B aktivierten Parametern)
  • 700+ Token/Sekunde auf RTX 5090
  • 1000+ Token/Sekunde auf Nvidia H100
  • 4x schneller als vergleichbare autoregressive Gemma-Modelle

Vorteile

Der Diffusions-Ansatz verlagert den Flaschenhals von Speicherbandbreite zu Rechenleistung. Das ermöglicht:

  • Bis zu 256 Token parallel generieren
  • Bessere Performance bei nicht-linearen Aufgaben (Editieren, Mathematik)
  • Sudoku-artige Probleme lösen durch Selbstkorrektur

Verfügbarkeit

DiffusionGemma ist als Open-Source-Modell verfügbar und kann auf Gaming-GPUs mit 18GB VRAM laufen.