Article

Open Agent Leaderboard: IBM misst Agent-Systeme nicht nur Models

May 18, 2026 models agents ibm benchmark huggingface

Warum Modelle allein nicht ausreichen

IBM Research hat den Open Agent Leaderboard veröffentlicht. Der Kernsatz: “Wie gut ein AI-Agent funktioniert hängt davon ab wie er gebaut ist nicht nur vom Modell darin.” Traditionelle Benchmarks testen isolierte Modelle. Das neue Framework bewertet ganze Agent-Systeme.

Was wird gemessen

Der Leaderboard kombiniert sechs Benchmarks mit realistischen Aufgaben:

SWE-Bench Verified: Echte Bugs in真实en Code-Repositories
BrowseComp+: Komplexe Web-Recherche-Fragen
AppWorld: Realistische App-Interaktionen

Qualität und Kosten

Das Framework meldet sowohl Qualität als auch Kosten. So sieht man nicht nur was funktioniert sondern auch ob sich der Einsatz lohnt. Ein System das alles kann aber ein Vermögen kostet ist nicht allgemein einsetzbar.

Exgentic Framework

Der Leaderboard wird vom Exgentic Framework begleitet: Ein Open-Source-Toolkit zum Ausführen und Reproduzieren von Evaluierungen. Begleitend erscheint ein Paper mit vollständiger Methodik und Ergebnissen.

Link: Original bei HuggingFace