Article

vLLM V1: Weniger Drift bei RL-Training

vllm rl training inference

Die Migration-Problematik

Der Wechsel von vLLM V0 auf V1 ist kein einfaches Update, sondern ein fundamentaler Rewrite der Inference-Engine. Für Reinforcement Learning workloads wie GSPO oder PPO ist das kritisch: Jede Abweichung in der Logprob-Berechnung verändert die Trainingsdynamik.

Die vier kritischen Fixes

ServiceNow AI dokumentiert die notwendigen Anpassungen: Erstens muss logprobs-mode=processed_logprobs gesetzt werden, damit die Logprobs nach Temperatur und Sampling-Filtern berechnet werden. Zweitens gelten für V1 andere Runtime-Defaults. Drittens muss der Inflight-Weight-Update-Pfad angepasst werden. Viertens ist ein fp32 lm_head für die finale Projektion notwendig.

Diagnose-Strategie

Der Schlüssel zur Lösung lag darin, Backend-Probleme von Objective-Problemen zu trennen. Wer bei Anomalien sofort das RL-Objective anpasst, repariert Symptome statt Ursachen. Die Policy-Ratio-Metrik zeigte, dass nach den Backend-Fixes das Verhältnis von Rollout- zu Trainer-Logprobs korrekt bei 1.0 blieb.

Link: Original bei Hugging Face