Article
TRL v1.0: Post-Training-Bibliothek für produktive Systeme
Hugging Face hat TRL v1.0 veröffentlicht. Die Bibliothek für Post-Training-Methoden hat sich von einem Forschungsprojekt zu produktionsreifer Infrastruktur entwickelt.
Der Wendepunkt
Mit über 75 implementierten Post-Training-Methoden und 3 Millionen monatlichen Downloads ist TRL nun eine Grundlage für viele Downstream-Projekte wie Unsloth und Axolotl. Die Version 1.0 markiert den Übergang von Forschungscode zu verlässlicher Bibliothek.
Das Design-Problem
Post-Training ist ein sich schnell wandelndes Feld. Was als essenziell galt, wurde durch neue Methoden obsolet und dann wieder relevant: Reward Models waren zentral für PPO, wurden mit DPO überflüssig, und kehren in RLVR-Methoden als Verifier zurück.
Kern-Features
TRL v1.0 bietet eine stabile API mit Verträgen statt Implementierungsdetails, über 75 Post-Training-Algorithmen, nahtlose Integration mit Transformers und PEFT, und Produktionsreife durch Testing in realen Workflows.
Methoden-Landschaft
Die Bibliothek deckt PPO-basierte Methoden für klassisches RLHF mit Reward Models ab, die DPO-Familie mit ORPO und KTO ohne separate Reward Models, und RLVR-Methoden wie GRPO für verifizierbare Aufgaben.