Article
SANA-WM: Open-Source-Weltmodell für minutenlange Videos
NVIDIA Labs hat mit SANA-WM ein effizientes 2,6-Milliarden-Parameter-Weltmodell veröffentlicht, das nativ für einminütige Videogeneration trainiert wurde. Das Besondere: Es läuft auf einer einzigen GPU und erzeugt 720p-Videos mit präziser Kamerasteuerung.
Vier-Säulen-Architektur
Das Modell basiert auf vier Kernkonzepten. Hybrid Linear Attention kombiniert Gated DeltaNet mit Softmax-Attention für speichereffiziente Long-Context-Modellierung. Dual-Branch Camera Control sorgt für präzise 6-DoF-Trajektorien-Adhärenz. Ein Two-Stage Generation Pipeline mit einem 17B-Long-Video-Refiner verbessert Textur und Bewegungsqualität deutlich. Eine robuste Annotation Pipeline extrahiert metrische 6-DoF-Kameraposen aus öffentlichen Videos.
Trainings- und Inferenzeffizienz
SANA-WM wurde mit nur ~213.000 öffentlich verfügbaren Videoclips trainiert – deutlich weniger als typische Weltmodelle. Das Training dauerte 15 Tage auf 64 H100s. Zur Inferenz genügt eine einzelne H100 für 60-Sekunden-Clips. Eine destillierte Variante läuft sogar auf einer RTX 5090 mit NVFP4-Quantisierung und verarbeitet einen 60-Sekunden-720p-Clip in nur 34 Sekunden.
Vergleich mit Industriestandards
Auf dem einminütigen Weltmodell-Benchmark zeigt SANA-WM stärkere Action-Following-Präzision als frühere Open-Source-Baselines. Die visuelle Qualität ist vergleichbar mit Industriemodellen wie LingBot-World und HY-WorldPlay, bei 36x höherem Durchsatz.
Die Modelle sind als Open Source verfügbar und ermöglichen Forschern sowie Entwicklern den Einsatz von Weltmodellen für Simulation, Robotik und Content-Erstellung ohne massives Compute-Budget.
Technische Details
Die Hybrid Linear Attention nutzt frame-weise Gated DeltaNet mit periodischem Softmax, um einen kohärenten Weltzustand über eine volle Minute zu halten. Das Dual-Branch-System kombiniert einen groben globalen Pose-Branch mit einem feinen pixel-alignten geometrischen Branch für metrische Kamerapfade.