Article

DiffusionGemma: 4x schnellere Text-Generierung

AI Google Gemma Diffusion LLM Open Source

Ein Paradigmenwechsel in der Text-Generierung

Google hat DiffusionGemma veröffentlicht – ein experimentelles Open-Source-Modell unter Apache 2.0 Lizenz, das die sequentielle Token-für-Token Generierung herkömmlicher LLMs durch parallele Diffusion ersetzt. Das Ergebnis: bis zu 4x schnellere Inference auf dedizierten GPUs.

Technische Spezifikationen

Eigenschaft Wert
Parameter (Total) 26B (MoE)
Aktive Parameter 3.8B pro Inference
VRAM (quantisiert) ~18GB
Geschwindigkeit 1000+ tok/s (H100), 700+ tok/s (RTX 5090)
Lizenz Apache 2.0

Diffusion vs. Autoregressive

Der fundamentale Unterschied:

  • Autoregressive LLMs: Generieren Token sequentiell, speicherbandbreiten-limitiert
  • Diffusion: Generiert 256 Token parallel pro Forward-Pass, compute-limitiert

Vorteile der Diffusions-Architektur

  1. Bi-direktionale Attention: Jeder Token kann alle anderen sehen – ideal für Code-Infilling, Sudoku, mathematische Strukturen
  2. Selbstkorrektur: Iterative Verfeinerung des gesamten Textblocks
  3. Nicht-lineare Generierung: Perfekt für Editier-Workflows

Quality vs. Speed Trade-off

DiffusionGemma priorisiert Geschwindigkeit über Qualität. Für Produktionsanwendungen mit höchsten Qualitätsanforderungen empfiehlt Google weiterhin Gemma 4.

Use Cases

  • Inline-Editing: Echtzeit-Textbearbeitung
  • Code-Infilling: Code-Lücken füllen
  • Interaktive Workflows: Minimale Latenz für lokale Anwendungen
  • Sudoku & Constraints: Aufgaben die globale Konsistenz benötigen

Fine-Tuning Beispiel

Unsloth demonstrierte erfolgreich Fine-Tuning auf Sudoku – eine Aufgabe, die für autoregressive Modelle extrem schwierig ist, da jeder Token von zukünftigen Token abhängt.

Verfügbarkeit

DiffusionGemma ist jetzt auf Hugging Face verfügbar. Die Integration in bestehende Workflows erfordert jedoch Anpassungen, da die Diffusions-Architektur nicht Drop-in-kompatibel mit autoregressiven Modellen ist.

Google Blog