Article

Trillion-Parameter-Training: Delta Weight Sync in TRL

May 27, 2026 HuggingFace Training RL Infrastructure Models

Asynchrones Reinforcement Learning hat ein skaliertes Problem: Jeder Trainingsschritt erfordert den Transfer des kompletten Modells an den Inference-Server. Bei 7B Parametern sind das 14 GB. Bei Frontier-Modellen mit 1 Billion Parametern: ein Terabyte pro Schritt.

Hugging Face hat eine Lösung implementiert, die dieses Problem eliminiert.

Das Problem

Bei Async-RL läuft der Trainer auf einem Cluster, der Inference-Server auf einem anderen. Nach jedem Optimizer-Schritt muss das aktualisierte Modell zum Inference-Server – sonst generiert dieser mit veralteten Gewichten. Der Overhead ist brutal.

Die Beobachtung: Zwischen zwei konsekutiven RL-Optimizerschritten ändern sich weniger als 2% der Gewichte. Oft sind es nur 0.X%. Der Rest bleibt identisch.

Die Lösung: Delta Weight Sync

Ein neuer TRL-PR kodiert nur die geänderten Elemente als Sparse Delta, lädt es in einen Hub Bucket hoch, und signalisiert vLLM zum Abruf.

Das Ergebnis auf Qwen3-0.6B: Der Per-Step-Payload fällt von 1.2 GB auf 24 KB. Das sind 99.998% weniger Datentransfer.

Disaggregated Training Demo

Das Team fuhr ein vollständiges disaggregiertes Training:

Trainer auf einem Cluster
Rollout-Server auf einem anderen
vLLM auf einem dritten
Alle Gewichte flossen durch einen einzigen Hub Bucket

Kein Shared Cluster. Kein RDMA. Kein VPN. Nur Hub Buckets als Koordinationspunkt.

Warum das wichtig ist

Async-RL war bisher Infrastructure-Intensiv. Wer es skalieren wollte, brauchte homogene Cluster mit schnellem Networking. Delta Weight Sync demonstriert eine Alternative: Standard-Cloud-Storage reicht für Multi-Billion-Parameter-Training.

Die Kostenreduktion ist signifikant – nicht nur am Networking, auch am Storage. Sparse Deltas sind winzig, das Bucket bleibt überschaubar.

Link: Delta Weight Sync auf Hugging Face Blog