Article

TRL v1.0: Post-Training-Bibliothek für produktive Systeme

Hugging Face TRL Post-Training DPO PPO GRPO

Hugging Face hat TRL v1.0 veröffentlicht. Die Bibliothek für Post-Training-Methoden hat sich von einem Forschungsprojekt zu produktionsreifer Infrastruktur entwickelt.

Der Wendepunkt

Mit über 75 implementierten Post-Training-Methoden und 3 Millionen monatlichen Downloads ist TRL nun eine Grundlage für viele Downstream-Projekte wie Unsloth und Axolotl. Die Version 1.0 markiert den Übergang von Forschungscode zu verlässlicher Bibliothek.

Das Design-Problem

Post-Training ist ein sich schnell wandelndes Feld. Was als essenziell galt, wurde durch neue Methoden obsolet und dann wieder relevant: Reward Models waren zentral für PPO, wurden mit DPO überflüssig, und kehren in RLVR-Methoden als Verifier zurück.

Kern-Features

TRL v1.0 bietet eine stabile API mit Verträgen statt Implementierungsdetails, über 75 Post-Training-Algorithmen, nahtlose Integration mit Transformers und PEFT, und Produktionsreife durch Testing in realen Workflows.

Methoden-Landschaft

Die Bibliothek deckt PPO-basierte Methoden für klassisches RLHF mit Reward Models ab, die DPO-Familie mit ORPO und KTO ohne separate Reward Models, und RLVR-Methoden wie GRPO für verifizierbare Aufgaben.

Originalartikel