Article

KI-Evaluation wird zum neuen Compute-Engpass

May 03, 2026 evaluation benchmarks huggingface compute

Wenn Testen teurer wird als Training

Eine neue Analyse von Hugging Face und der EvalEval Coalition zeigt eine Verschiebung im KI-Landschaft: Die Kosten für Modell-Evaluation könnten bald die Trainingskosten übersteigen. Der Grund ist die zunehmende Komplexität von Agenten-Benchmarks und die Notwendigkeit wiederholter Läufe für zuverlässige Ergebnisse.

Konkret: Der Holistic Agent Leaderboard (HAL) gab etwa 40.000 Dollar aus, um 21.730 Agenten-Rollen über 9 Modelle und 9 Benchmarks zu testen. Ein einziger GAIA-Lauf mit einem Frontier-Modell kostet 2.829 Dollar – vor Caching. Exgentic gab 22.000 Dollar aus, um verschiedene Agenten-Konfigurationen zu testen, und fand einen Kostenspreizungsfaktor von 33x für identische Aufgaben.

Statische vs. Agenten-Benchmarks

Für statische Benchmarks wie HELM gibt es bereits Kompressionstechniken: tinyBenchmarks reduzierte MMLU von 14.000 auf 100 Items bei nur 2% Fehlerquote. Aber Agenten-Benchmarks sind anders – sie sind “noisy”, scaffold-sensitiv und nur teilweise komprimierbar. Training-in-the-Loop-Benchmarks sind von Natur aus teuer.

Die Implikation ist klar: Wer heute ein neues Modell entwickelt, muss nicht nur die Trainingskosten einplanen, sondern auch signifikante Ressourcen für die Evaluation. Flash-HELM zeigt einen möglichen Weg: Günstige Tests zuerst, teure nur für die Top-Kandidaten.

Link: Original bei Hugging Face