Article

Open Agent Leaderboard: Endlich Agenten ganzheitlich vergleichen

Die meisten KI-Benchmarks fragen: Welches Modell erzielt die höchste Punktzahl? Doch bei Agenten ist das Modell nur ein Teil der Gleichung. Ein neuer Open-Source-Benchmark von IBM Research auf Hugging Face ändert die Perspektive: Er bewertet vollständige Agentensysteme – inklusive Tools, Planung, Gedächtnis und Fehlerbehandlung.

Das Ergebnis desselben Modells kann drastisch variieren, je nachdem welche Werkzeuge verfügbar sind, wie der Agent plant, was er sich merkt, und wie er mit Fehlern umgeht. Der Open Agent Leaderboard macht diese Variablen sichtbar und misst sowohl Qualität als auch Kosten. So sieht man nicht nur was funktioniert, sondern ob sich der Einsatz tatsächlich lohnt.

Die Benchmarks decken ein breites Spektrum realistischer Aufgaben ab: SWE-Bench Verified für Bugfixes in echten Repositories, BrowseComp+ für komplexe Web-Recherche, AppWorld für Multi-App-Workflows, tau_bench für Kundenservice-Szenarien, und weitere.

Das Konzept der Generality wird hier als Spektrum verstanden, nicht als binäres Label: Ein allgemeiner Agent funktioniert in neuen Umgebungen ohne manuelle Anpassung – der Benchmark misst genau das. Wie gut bleibt der Agent funktionsfähig wenn die Aufgaben und Werkzeuge variieren? Und zu welchem Preis?

Für alle, die Agenten in Produktion einsetzen wollen, bietet der Leaderboard eine datengrundlage für fundierte Entscheidungen jenseits von Marketing-Claims.

Link: HuggingFace Blog