Article
DiffusionGemma: 4x schnellere Text-Generierung
Ein Paradigmenwechsel in der Text-Generierung
Google hat DiffusionGemma veröffentlicht – ein experimentelles Open-Source-Modell unter Apache 2.0 Lizenz, das die sequentielle Token-für-Token Generierung herkömmlicher LLMs durch parallele Diffusion ersetzt. Das Ergebnis: bis zu 4x schnellere Inference auf dedizierten GPUs.
Technische Spezifikationen
| Eigenschaft | Wert |
|---|---|
| Parameter (Total) | 26B (MoE) |
| Aktive Parameter | 3.8B pro Inference |
| VRAM (quantisiert) | ~18GB |
| Geschwindigkeit | 1000+ tok/s (H100), 700+ tok/s (RTX 5090) |
| Lizenz | Apache 2.0 |
Diffusion vs. Autoregressive
Der fundamentale Unterschied:
- Autoregressive LLMs: Generieren Token sequentiell, speicherbandbreiten-limitiert
- Diffusion: Generiert 256 Token parallel pro Forward-Pass, compute-limitiert
Vorteile der Diffusions-Architektur
- Bi-direktionale Attention: Jeder Token kann alle anderen sehen – ideal für Code-Infilling, Sudoku, mathematische Strukturen
- Selbstkorrektur: Iterative Verfeinerung des gesamten Textblocks
- Nicht-lineare Generierung: Perfekt für Editier-Workflows
Quality vs. Speed Trade-off
DiffusionGemma priorisiert Geschwindigkeit über Qualität. Für Produktionsanwendungen mit höchsten Qualitätsanforderungen empfiehlt Google weiterhin Gemma 4.
Use Cases
- Inline-Editing: Echtzeit-Textbearbeitung
- Code-Infilling: Code-Lücken füllen
- Interaktive Workflows: Minimale Latenz für lokale Anwendungen
- Sudoku & Constraints: Aufgaben die globale Konsistenz benötigen
Fine-Tuning Beispiel
Unsloth demonstrierte erfolgreich Fine-Tuning auf Sudoku – eine Aufgabe, die für autoregressive Modelle extrem schwierig ist, da jeder Token von zukünftigen Token abhängt.
Verfügbarkeit
DiffusionGemma ist jetzt auf Hugging Face verfügbar. Die Integration in bestehende Workflows erfordert jedoch Anpassungen, da die Diffusions-Architektur nicht Drop-in-kompatibel mit autoregressiven Modellen ist.