Article

Cosmos Predict 2.5 Fine-Tuning für Roboter-Videos

Motivation

NVIDIA Cosmos Predict 2.5 ist ein großes Weltmodell, das physikalisch plausible Videos aus Text, Bildern oder Videoclips generieren kann. Für spezifische Anwendungsdomänen wie Roboter-Manipulation oder bestimmte Kameraperspektiven ist jedoch Fine-Tuning nötig.

Das Problem

Training von Roboter-Policies erfordert Demonstrationsdaten. Das Sammeln echter Roboter-Trajektorien ist langsam und teuer. Synthetische Trajektorien aus einem fine-getunten Video-Weltmodell bieten eine skalierbare Alternative.

LoRA und DoRA

Full Fine-Tuning eines 2B-Modells ist teuer und riskiert katastrophales Vergessen. LoRA (Low-Rank Adaptation) und DoRA (Weight-Decomposed Low-Rank Adaptation) injizieren kleine trainierbare Adapter-Module in das gefrorene Basismodell. Das reduziert den Speicherbedarf und hält die Adapter-Dateien klein und portabel.

Tutorial-Inhalt

Der HuggingFace-Guide behandelt:

  • Installation und Requirements (Python 3.10+, PyTorch 2.5+ mit CUDA)
  • Setup von diffusers und accelerate
  • Single-GPU und Multi-GPU Training
  • Generierung synthetischer Roboter-Trajektorien
  • Integration in Roboter-Learning-Pipelines

Praktische Anwendung

Nach dem Fine-Tuning kann das Modell domänenspezifische Videos generieren – etwa für eine bestimmte Art von Greifbewegungen oder eine spezifische Kameraposition. Diese synthetischen Daten können dann zum Training von Roboter-Policies verwendet werden.

Warum PEFT wichtig ist

Parameter-Efficient Fine-Tuning (PEFT) macht es praktisch:

  • Training auf einer einzigen GPU möglich
  • Adapter-Dateien sind portabel (Megabytes statt Gigabytes)
  • Flexibler Wechsel zwischen Domänen zur Inferenzzeit
  • Kein Verlust des generellen Weltwissens

Originalartikel