Article

Open Agent Leaderboard - Agenten systematisch bewerten

IBM Research veröffentlicht einen offenen Benchmark für AI-Agenten. Nicht nur Modelle, sondern ganze Systeme.

Kurzbeschreibung

Der Open Agent Leaderboard bewertet vollständige Agentensysteme statt einzelner Modelle und betrachtet sowohl Qualität als auch Kosten.

Abstract

IBM Research hat den Open Agent Leaderboard gestartet, einen offenen Benchmark, der nicht nur Modelle vergleicht, sondern vollständige Agentensysteme. Die zentrale Erkenntnis: Ein AI-Agent ist nur so gut wie sein System. Nicht nur das Modell selbst zählt, sondern auch welche Tools verfügbar sind, wie der Agent plant, was er zwischen Aktionen speichert und wie er sich bei Fehlern erholt.

Der Benchmark umfasst sechs verschiedene Aufgabenkomplexe: SWE-Bench Verified für Bug-Fixes in echten Repositories, BrowseComp+ für komplexe Websuche, AppWorld für App-Nutzung, tau-bench für Kunden-Support-Aufgaben, GAIA Forschungsfragen und ein Theorie-of-Mind-Test. Was den Leaderboard besonders macht: Er misst nicht nur Qualität, sondern auch Kosten. So sieht man nicht nur, was funktioniert, sondern ob es sich wirklich zu deployen lohnt.

Die Ergebnisse zeigen, wie wichtig die System-Architektur ist. Ein weniger leistungsstarkes Modell mit besserem Tool-Access kann mehr erreichen als ein stärkeres Modell mit schlechter Integration. Das ist relevant für alle, die Agenten in Produktion einsetzen: Die Modellwahl allein bestimmt nicht den Erfolg.

Der Leaderboard ist quelloffen und wird gemeinsam mit Exgentic, einem Framework für reproduzierbare Evaluationen, angeboten. Ein wichtiger Schritt hin zu transparenteren Agent-Bewertungen.

Link: The Open Agent Leaderboard