Article
Open Agent Leaderboard: IBM misst Agent-Systeme nicht nur Models
Warum Modelle allein nicht ausreichen
IBM Research hat den Open Agent Leaderboard veröffentlicht. Der Kernsatz: “Wie gut ein AI-Agent funktioniert hängt davon ab wie er gebaut ist nicht nur vom Modell darin.” Traditionelle Benchmarks testen isolierte Modelle. Das neue Framework bewertet ganze Agent-Systeme.
Was wird gemessen
Der Leaderboard kombiniert sechs Benchmarks mit realistischen Aufgaben:
- SWE-Bench Verified: Echte Bugs in真实en Code-Repositories
- BrowseComp+: Komplexe Web-Recherche-Fragen
- AppWorld: Realistische App-Interaktionen
Qualität und Kosten
Das Framework meldet sowohl Qualität als auch Kosten. So sieht man nicht nur was funktioniert sondern auch ob sich der Einsatz lohnt. Ein System das alles kann aber ein Vermögen kostet ist nicht allgemein einsetzbar.
Exgentic Framework
Der Leaderboard wird vom Exgentic Framework begleitet: Ein Open-Source-Toolkit zum Ausführen und Reproduzieren von Evaluierungen. Begleitend erscheint ein Paper mit vollständiger Methodik und Ergebnissen.
Link: Original bei HuggingFace