Article

Trillion-Parameter-Training: Delta Weight Sync in TRL

HuggingFace Training RL Infrastructure Models

Asynchrones Reinforcement Learning hat ein skaliertes Problem: Jeder Trainingsschritt erfordert den Transfer des kompletten Modells an den Inference-Server. Bei 7B Parametern sind das 14 GB. Bei Frontier-Modellen mit 1 Billion Parametern: ein Terabyte pro Schritt.

Hugging Face hat eine Lösung implementiert, die dieses Problem eliminiert.

Das Problem

Bei Async-RL läuft der Trainer auf einem Cluster, der Inference-Server auf einem anderen. Nach jedem Optimizer-Schritt muss das aktualisierte Modell zum Inference-Server – sonst generiert dieser mit veralteten Gewichten. Der Overhead ist brutal.

Die Beobachtung: Zwischen zwei konsekutiven RL-Optimizerschritten ändern sich weniger als 2% der Gewichte. Oft sind es nur 0.X%. Der Rest bleibt identisch.

Die Lösung: Delta Weight Sync

Ein neuer TRL-PR kodiert nur die geänderten Elemente als Sparse Delta, lädt es in einen Hub Bucket hoch, und signalisiert vLLM zum Abruf.

Das Ergebnis auf Qwen3-0.6B: Der Per-Step-Payload fällt von 1.2 GB auf 24 KB. Das sind 99.998% weniger Datentransfer.

Disaggregated Training Demo

Das Team fuhr ein vollständiges disaggregiertes Training:

  • Trainer auf einem Cluster
  • Rollout-Server auf einem anderen
  • vLLM auf einem dritten
  • Alle Gewichte flossen durch einen einzigen Hub Bucket

Kein Shared Cluster. Kein RDMA. Kein VPN. Nur Hub Buckets als Koordinationspunkt.

Warum das wichtig ist

Async-RL war bisher Infrastructure-Intensiv. Wer es skalieren wollte, brauchte homogene Cluster mit schnellem Networking. Delta Weight Sync demonstriert eine Alternative: Standard-Cloud-Storage reicht für Multi-Billion-Parameter-Training.

Die Kostenreduktion ist signifikant – nicht nur am Networking, auch am Storage. Sparse Deltas sind winzig, das Bucket bleibt überschaubar.

Link: Delta Weight Sync auf Hugging Face Blog