Article
VAKRA: Enterprise-Agent-Benchmark mit echten APIs
VAKRA von IBM Research ist ein tool-gegroundetes, ausführbares Benchmark, das misst, wie gut KI-Agenten in unternehmensähnlichen Umgebungen denken und handeln können. Im Gegensatz zu traditionellen Benchmarks, die isolierte Fähigkeiten testen, misst VAKRA kompositionelle Überlegungen über APIs und Dokumente und nutzt vollständige Ausführungstraces.
Die Architektur hinter VAKRA
Das Benchmark stellt eine ausführbare Umgebung bereit, in der Agenten mit über 8.000+ lokal gehosteten APIs interagieren, unterstützt durch echte Datenbanken, die 62 Domänen abdecken, sowie domänenausgerichtete Dokumentensammlungen. Aufgaben können 3-7 stufige Reasoning-Ketten erfordern, die strukturierte API-Interaktion mit unstrukturierter Abfrage unter natürlichsprachlichen Tool-Use-Bedingungen kombinieren.
Vier getestete Fähigkeiten
VAKRA umfasst vier Haupt-Capabilities:
- API Chaining mit Business Intelligence APIs: 2.077 Testinstanzen über 54 Domänen, die Tool-Chaining von 1-12 Aufrufen erfordern
- Multi-Document Reasoning: Aufgaben mit mehreren Dokumenten und Querverweisen
- Hybrid API + Document Tasks: Kombination von strukturierter API-Nutzung mit Dokumentenrecherche
- Tool-Use Constraints: Natürlichsprachliche Beschränkungen bei der Tool-Nutzung
Ernüchternde Ergebnisse
Die Modelle schneiden auf VAKRA überraschend schlecht ab. Der Grund: Traditionelle Benchmarks testen isolierte Fähigkeiten, während VAKRA Komposition und Ausführung von Workflows verlangt. Agenten müssen nicht nur wissen, welche Tools existieren, sondern auch, wie sie diese in mehrstufigen Plänen kombinieren.
Analyse der Fehlermodi
Die IBM-Forschenden analysierten detailliert, wo Agenten scheitern:
- API-Missverständnis: Falsche Annahmen über Tool-Parameter
- Reasoning-Brüche: Verlust des Kontexts in langen Ketten
- Dokumentenmissverständnis: Falsche Extraktion aus unstrukturierten Daten
- Kombinationsfehler: Scheitern an der Integration verschiedener Informationsquellen
Verfügbarkeit: Dataset, Leaderboard und GitHub-Repository sind öffentlich zugänglich.