Article
Cosmos Predict 2.5 Fine-Tuning für Roboter-Videos
Motivation
NVIDIA Cosmos Predict 2.5 ist ein großes Weltmodell, das physikalisch plausible Videos aus Text, Bildern oder Videoclips generieren kann. Für spezifische Anwendungsdomänen wie Roboter-Manipulation oder bestimmte Kameraperspektiven ist jedoch Fine-Tuning nötig.
Das Problem
Training von Roboter-Policies erfordert Demonstrationsdaten. Das Sammeln echter Roboter-Trajektorien ist langsam und teuer. Synthetische Trajektorien aus einem fine-getunten Video-Weltmodell bieten eine skalierbare Alternative.
LoRA und DoRA
Full Fine-Tuning eines 2B-Modells ist teuer und riskiert katastrophales Vergessen. LoRA (Low-Rank Adaptation) und DoRA (Weight-Decomposed Low-Rank Adaptation) injizieren kleine trainierbare Adapter-Module in das gefrorene Basismodell. Das reduziert den Speicherbedarf und hält die Adapter-Dateien klein und portabel.
Tutorial-Inhalt
Der HuggingFace-Guide behandelt:
- Installation und Requirements (Python 3.10+, PyTorch 2.5+ mit CUDA)
- Setup von diffusers und accelerate
- Single-GPU und Multi-GPU Training
- Generierung synthetischer Roboter-Trajektorien
- Integration in Roboter-Learning-Pipelines
Praktische Anwendung
Nach dem Fine-Tuning kann das Modell domänenspezifische Videos generieren – etwa für eine bestimmte Art von Greifbewegungen oder eine spezifische Kameraposition. Diese synthetischen Daten können dann zum Training von Roboter-Policies verwendet werden.
Warum PEFT wichtig ist
Parameter-Efficient Fine-Tuning (PEFT) macht es praktisch:
- Training auf einer einzigen GPU möglich
- Adapter-Dateien sind portabel (Megabytes statt Gigabytes)
- Flexibler Wechsel zwischen Domänen zur Inferenzzeit
- Kein Verlust des generellen Weltwissens