Article

SANA-WM: Open-Source World Model für 1-Minuten-Videos

May 16, 2026 World Model Video Generation NVIDIA Open Source

NVIDIA Labs veröffentlicht SANA-WM, ein offenes World Model für Video-Generierung. Aus einem einzigen Startbild und einer Kamera-Trajektorie entstehen minutelange 720p-Videos - auf einer einzigen GPU.

Kernfeatures

SANA-WM ist ein 2.6 Milliarden Parameter starkes Modell, das auf einem einzelnen H100 trainiert und deployed werden kann. Es generiert eine volle Minute Video in 720p Qualität mit präziser 6-DoF Kamerasteuerung. Die Distilled-Variante läuft sogar auf einer RTX 5090 mit NVFP4-Quantisierung und denoiset einen 60-Sekunden-Clip in nur 34 Sekunden.

Vier Design-Entscheidungen machen das möglich:

Hybrid Linear Attention kombiniert frame-weise Gated DeltaNet mit periodischem Softmax für speichereffiziente Long-Context-Modellierung. Das ist entscheidend für das Verständnis langer Videosequenzen ohne Out-of-Memory-Fehler.

Dual-Branch Camera Control nutzt einen groben globalen Pose-Branch und einen feinen pixel-alignierten geometrischen Branch. Zusammen garantieren sie metrisch präzise Kamerapfade.

Two-Stage Generation wendet einen Long-Video-Refiner auf die erste Stufe an und verbessert Textur, Bewegung und Qualität in späten Frames.

Robust Annotation Pipeline extrahiert metrische 6-DoF-Kameraposen aus öffentlichen Videos für hochwertige Trainingslabels.

Effizienz-Vergleich

Die Zahlen sprechen für sich: Nur 64 H100s für 15 Tage Training. Ein einziger H100 für Inferenz. 36x höherer Throughput als vergleichbare Open-Source-Modelle bei gleicher visueller Qualität.

Die Memory-Scaling-Grafik zeigt deutlich, warum rekurrente Varianten gewinnen: While reine Softmax-Attention bei 60 Sekunden out-of-memory geht, wachsen die rekurrenten Varianten kompakt.

Was bedeutet World Model hier?

World Models lernen eine interne Repräsentation der Welt aus Trainingsdaten. SANA-WM lernt nicht nur, wie Pixel aussehen, sondern wie sich die physische Welt bewegt - Kamera-Rotationen, Tiefenwechsel, Konsistenz über Zeit. Das ermöglicht die Generierung physikalisch plausibler Videos aus reiner Kamerasteuerung.

Die Demos zeigen beeindruckende Konsistenz über die volle Minute: Straßen, die sich logisch entwickeln, Landschaften, die konsistent bleiben, Objekte, die nicht plötzlich erscheinen oder verschwinden.