Article

NVIDIA Nemotron-Labs Diffusion: Textgenerierung mit Lichtgeschwindigkeit

May 23, 2026 nvidia diffusion dlm llm inference

Diffusion Language Models: Ein neues Paradigma für Textgenerierung

Große Sprachmodelle waren seit Jahren autoregressiv – sie generieren Token für Token, wobei jeder neue Token von den vorhergehenden abhängt. Das ist stabil beim Training und einfach zu servieren, aber es schafft einen harten Limit: Jeder neue Token erfordert einen kompletten Model-Pass, und alle Gewichte müssen erst aus dem Speicher geladen werden. Auf modernen GPUs verbringen autoregressive Modelle die meiste Zeit mit Speicheroperationen statt mit Berechnung.

NVIDIA stellt mit Nemotron-Labs Diffusion einen neuen Ansatz vor: Diffusion Language Models (DLM), die mehrere Token parallel generieren und iterativ verfeinern. Das ermöglicht nicht nur bessere GPU-Auslastung und signifikante Performance-Vorteile, sondern erlaubt auch die Überarbeitung bereits generierter Token. Das macht diese Modelle besser geeignet für Text-Revision und Fill-in-the-Middle-Aufgaben.

Drei Generierungsmodi in einem Modell

Das Design erlaubt es Entwicklern, Autoregressive-, Diffusion- und Self-Speculation-Modi mit minimalem Code-Wechsel zu nutzen. Autoregressiver Modus für Kompatibilität, Diffusion für Throughput, und Self-Speculation für maximale Geschwindigkeit mit AR-Verifikation.

Die Performance-Zahlen sind beeindruckend: Nemotron-Labs Diffusion 8B erreicht eine um 1,2% verbesserte Genauigkeit gegenüber Qwen3 8B. Bei der Inference-Geschwindigkeit (gemessen in Tokens per Forward Pass, TPF) erreicht der Diffusion-Modus 2,6× höhere Werte als AR-Modelle. Self-Speculation steigert das auf 6× bis 6,4× bei vergleichbarer Genauigkeit. Auf B200-Hardware werden ~865 Tokens/Sekunde im Self-Speculation-Modus erreicht – etwa 4× schneller als der autoregressive Baseline.

Training mit 1,3 Billionen Token

Das Modell wurde mit einem gemeinsamen AR- und Diffusions-Ziel trainiert, wodurch es die Fähigkeiten aus dem AR-Pretraining behält und parallle Drafting-Fähigkeiten hinzufügt. Es wurde auf 1,3 Billionen Token aus den NVIDIA Nemotron Pretraining-Datasets trainiert, gefolgt von einem Supervised Fine-Tuning mit 45 Milliarden Token.

Die Model-Familie umfasst 3B, 8B und 14B Varianten, alle verfügbar unter der kommerziell nutzbaren NVIDIA Nemotron Open Model License. Zusätzlich gibt es ein 8B Vision-Language-Model unter der NVIDIA Source Code License. NVIDIA veröffentlicht auch den Trainingscode über das NVIDIA Megatron Bridge Framework.

Deployment läuft über SGLang mit Support für alle drei Modi. Entwickler können denselben Checkpoint in verschiedenen Modi betreiben – von Plain-AR über Diffusion bis zu Self-Speculation – durch eine einzelne Konfigurationszeile. Das macht Nemotron-Labs Diffusion zu einer praktischen Option für Entwickler, die schnellere Textgenerierung ohne komplette Pipeline-Änderungen suchen.

Link: Nemotron-Labs Diffusion Language Models