Article
DPO Beyond Chatbots: Wenn Modelle aus Fehlern lernen
Direct Preference Optimization (DPO) wird meistens für Chat-Alignment eingesetzt – aber DharmaAI zeigt mit DharmaOCR, dass DPO auch für strukturierte OCR-Tasks funktioniert. Der entscheidende Punkt: Anstatt subjektive menschliche Bewertungen zu nutzen, verwendet DharmaOCR ein binäres Signal aus dem Model selbst – korrekte Transkription gewählt, Degeneration-Schleife verworfen.
Die Ergebnisse sprechen für sich: DPO reduzierte die Text-Degeneration in allen getesteten Modellfamilien – durchschnittlich um 59,4%, im besten Fall um 87.6% (Nanonets-OCR2-3B: von 1.61% auf 0.20%). Warum SFT allein eine Ceiling hat? SFT trainiert token-weise, aber Degeneration ist ein Completion-Level-Fehler – das Model sieht nie die Schleife als Ganzes als “falsch” markiert. DPO dreht diese Logik um: Das Training-Signal ist der komplette Output.
Das Paper zeigt, dass DPO nicht nur für Alignment nützlich ist, sondern als direktes Werkzeug zur Mitigation spezifischer Failure Modes – besonders dort, wo ein klarer Vorzug definiert werden kann zwischen “korrekt” und “falsch”.