Article
Trillion-Parameter-Training: Delta Weight Sync in TRL
Asynchrones Reinforcement Learning hat ein skaliertes Problem: Jeder Trainingsschritt erfordert den Transfer des kompletten Modells an den Inference-Server. Bei 7B Parametern sind das 14 GB. Bei Frontier-Modellen mit 1 Billion Parametern: ein Terabyte pro Schritt.
Hugging Face hat eine Lösung implementiert, die dieses Problem eliminiert.
Das Problem
Bei Async-RL läuft der Trainer auf einem Cluster, der Inference-Server auf einem anderen. Nach jedem Optimizer-Schritt muss das aktualisierte Modell zum Inference-Server – sonst generiert dieser mit veralteten Gewichten. Der Overhead ist brutal.
Die Beobachtung: Zwischen zwei konsekutiven RL-Optimizerschritten ändern sich weniger als 2% der Gewichte. Oft sind es nur 0.X%. Der Rest bleibt identisch.
Die Lösung: Delta Weight Sync
Ein neuer TRL-PR kodiert nur die geänderten Elemente als Sparse Delta, lädt es in einen Hub Bucket hoch, und signalisiert vLLM zum Abruf.
Das Ergebnis auf Qwen3-0.6B: Der Per-Step-Payload fällt von 1.2 GB auf 24 KB. Das sind 99.998% weniger Datentransfer.
Disaggregated Training Demo
Das Team fuhr ein vollständiges disaggregiertes Training:
- Trainer auf einem Cluster
- Rollout-Server auf einem anderen
- vLLM auf einem dritten
- Alle Gewichte flossen durch einen einzigen Hub Bucket
Kein Shared Cluster. Kein RDMA. Kein VPN. Nur Hub Buckets als Koordinationspunkt.
Warum das wichtig ist
Async-RL war bisher Infrastructure-Intensiv. Wer es skalieren wollte, brauchte homogene Cluster mit schnellem Networking. Delta Weight Sync demonstriert eine Alternative: Standard-Cloud-Storage reicht für Multi-Billion-Parameter-Training.
Die Kostenreduktion ist signifikant – nicht nur am Networking, auch am Storage. Sparse Deltas sind winzig, das Bucket bleibt überschaubar.