Article

Cosmos Predict 2.5 Fine-Tuning für Roboter-Videos

May 21, 2026

Motivation

NVIDIA Cosmos Predict 2.5 ist ein großes Weltmodell, das physikalisch plausible Videos aus Text, Bildern oder Videoclips generieren kann. Für spezifische Anwendungsdomänen wie Roboter-Manipulation oder bestimmte Kameraperspektiven ist jedoch Fine-Tuning nötig.

Das Problem

Training von Roboter-Policies erfordert Demonstrationsdaten. Das Sammeln echter Roboter-Trajektorien ist langsam und teuer. Synthetische Trajektorien aus einem fine-getunten Video-Weltmodell bieten eine skalierbare Alternative.

LoRA und DoRA

Full Fine-Tuning eines 2B-Modells ist teuer und riskiert katastrophales Vergessen. LoRA (Low-Rank Adaptation) und DoRA (Weight-Decomposed Low-Rank Adaptation) injizieren kleine trainierbare Adapter-Module in das gefrorene Basismodell. Das reduziert den Speicherbedarf und hält die Adapter-Dateien klein und portabel.

Tutorial-Inhalt

Der HuggingFace-Guide behandelt:

Installation und Requirements (Python 3.10+, PyTorch 2.5+ mit CUDA)
Setup von diffusers und accelerate
Single-GPU und Multi-GPU Training
Generierung synthetischer Roboter-Trajektorien
Integration in Roboter-Learning-Pipelines

Praktische Anwendung

Nach dem Fine-Tuning kann das Modell domänenspezifische Videos generieren – etwa für eine bestimmte Art von Greifbewegungen oder eine spezifische Kameraposition. Diese synthetischen Daten können dann zum Training von Roboter-Policies verwendet werden.

Warum PEFT wichtig ist

Parameter-Efficient Fine-Tuning (PEFT) macht es praktisch:

Training auf einer einzigen GPU möglich
Adapter-Dateien sind portabel (Megabytes statt Gigabytes)
Flexibler Wechsel zwischen Domänen zur Inferenzzeit
Kein Verlust des generellen Weltwissens

Originalartikel