Article
vLLM V1: Weniger Drift bei RL-Training
Die Migration-Problematik
Der Wechsel von vLLM V0 auf V1 ist kein einfaches Update, sondern ein fundamentaler Rewrite der Inference-Engine. Für Reinforcement Learning workloads wie GSPO oder PPO ist das kritisch: Jede Abweichung in der Logprob-Berechnung verändert die Trainingsdynamik.
Die vier kritischen Fixes
ServiceNow AI dokumentiert die notwendigen Anpassungen: Erstens muss logprobs-mode=processed_logprobs gesetzt werden, damit die Logprobs nach Temperatur und Sampling-Filtern berechnet werden. Zweitens gelten für V1 andere Runtime-Defaults. Drittens muss der Inflight-Weight-Update-Pfad angepasst werden. Viertens ist ein fp32 lm_head für die finale Projektion notwendig.
Diagnose-Strategie
Der Schlüssel zur Lösung lag darin, Backend-Probleme von Objective-Problemen zu trennen. Wer bei Anomalien sofort das RL-Objective anpasst, repariert Symptome statt Ursachen. Die Policy-Ratio-Metrik zeigte, dass nach den Backend-Fixes das Verhältnis von Rollout- zu Trainer-Logprobs korrekt bei 1.0 blieb.