Article
Spezialisierung schlägt Skalierung: Das unterschätzte AI-Variable
Dharma AI hat einen Benchmark veröffentlicht, der die herkömmliche Procurement-Logik auf den Kopf stellt. Ein spezialisiertes 3-Milliarden-Parameter-Modell schlug alle getesteten kommerziellen Frontier-APIs – bei fünfzigmal niedrigeren Kosten.
Der strategische Standard
Drei Jahre lang war die Enterprise-AI-Strategie stabil: Das größte verfügbare Frontier-Modell war die sicherste Wahl. Capability skalierte mit Parameterzahl, Frontier-Provider führten die Benchmarks an. Die Kosten einer Fehlentscheidung schienen größer als die Kosten für das Top-Modell.
Diese Logik war berechtigt. Aber die empirische Evidenz zeigt nun ein Ergebnis, das diese Annahme in Frage stellt.
Das Benchmark-Ergebnis
Dharma veröffentlichte einen Benchmark für Brasilianisches Portugiesisch OCR über gedruckte Dokumente, handschriftlichen Text und juristische Akten. Gemessen wurde:
- Extraktionsqualität (Composite Score aus Edit-Distanz und N-Gram-Overlap)
- Kosten pro Million Seiten
- Produktionsstabilität (Text-Degenerationsrate)
Das 3B-spezialisierte Modell erreichte:
- Qualitäts-Score: 0.911
- Kostengap: 52x günstiger als Claude Opus 4.6
- Degenerationsrate: 0.20%
Zum Vergleich: Claude Opus 4.6 erreichte 0.833, Gemini 3.1 Pro 0.820, GPT-5.4 0.750.
Die Variable, die zählt
Was erklärt dieses Ergebnis? Nicht die Parameterzahl, sondern die Distributions-Alignment.
Ein 3B-Modell, das auf das Deployment-Ziel fokussiert ist, outperformt ein größeres Modell, dessen Parameter über Sprachen, Corpora und Domains verteilt sind, die die Aufgabe nie berührt. Die Paper-Autoren nennen es direkt: Kontextuelle Spezialisierung kann entscheidender sein als Parameterzahl allein.
Spezialisierung akkumuliert
Der vielleicht wichtigste Befund: Alignment ist keine binäre Eigenschaft, sondern eine hierarchische Position, die schrittweise verbessert werden kann.
Ein General-Purpose-Modell sitzt unten; ein General-Domain-Specialist darüber; ein Domain-Specialist darüber. Die gleiche nachgelagerte Training-Pipeline produziert unterschiedliche Ergebnisse je nach Startposition.
Zwei Vergleiche illustrieren das:
- 7B-Scale: Qwen2.5-VL-7B-Instruct erreichte 0.906 mit 1.01% Degeneration; olmOCR-2-7B (bereits OCR-spezialisiert) erreichte 0.927 mit 0.40%.
- 3B-Scale: Qwen2.5-VL-3B erreichte 0.793 mit 1.41% Degeneration; Nanonets-OCR2-3B erreichte 0.921 mit 0.20%.
Same Architektur, same Data, same Pipeline. Die Variable war die Startposition.
Die strategischen Fragen
Die Implikationen sind subtil, aber wichtig:
- Sollte Distributions-Alignment als First-Class-Variable neben Parameterzahl evaluiert werden?
- Reicht Benchmark-Führung allein als Procurement-Evidenz?
- Welche Startmodelle produzieren bei gleichem Training-Budget die besten Ergebnisse?
Für Enterprise-AI-Teams lautet die neue Frage nicht mehr “Welches Modell ist das größte?”, sondern “Welches Training-History ist am engsten an unsere Deployment-Aufgabe angepasst?”
Link: Original-Artikel