Article

vLLM V0 zu V1 Migration: Korrektheit vor Optimierung im RL-Training

Wer vLLM für Reinforcement Learning mit Sprachmodellen einsetzt, kennt das Problem: Die Migration von V0 auf V1 kann die Trainingsdynamik drastisch verändern. Ein detaillierter Post von ServiceNow zeigt, wie die richtigen Debug-Schritte den Unterschied zwischen kaputtem und funktionierendem Training ausmachen.

vLLM V1 ist ein substantial Rewrite des V0-Engines. Die Team mussten vier spezifische Probleme beheben, bevor die V1-Ergebnisse mit der V0-Referenz übereinstimmten: Die Verarbeitung von Rollout-Logprobs, V1-spezifische Runtime-Defaults, den Inflight-Weight-Update-Pfad, und die fp32-Genauigkeit der finalen Projektion.

Die Lektion ist fundamental: Backend-Verhalten vor RL-Objective korrigieren. Das Team trennte mögliche Ursachen in drei Ebenen: Logprob-Semantik (was der Backend zurückgibt vs. was der Trainer erwartet), Runtime-Defaults (wie gleich Prompts unterschiedliche Pfade nehmen), und RL-Objective-Korrekturen. Der häufigste Fehler ist, zu früh in die dritte Ebene zu springen.

Sichtbare Symptome im GSPO-Training: Clip-Rate und Reward drifteten von der V0-Referenz weg. Die einfachsten Diagnose-Signale waren Clip-Rate-Metriken im Vergleich zwischen Referenz und neuem Lauf.

Für Teams, die RL-Training mit LLMs durchführen, bietet der Post konkrete Debug-Strategien und eine Erinnerung: Train-Inference-Mismatch kann subtil sein und sich erst nach Hunderten von Trainingsschritten zeigen.

Link: HuggingFace Blog