Article
VAKRA: Agenten unter der Lupe
IBM Research hat eine detaillierte Analyse der VAKRA-Benchmark veröffentlicht, die aufzeigt, wo aktuelle Sprachmodelle bei Tool-Nutzung und Reasoning scheitern.
Kurzbeschreibung
Die neue Analyse von IBM Research deckt die systematischen Fehlermuster auf, die bei der VAKRA-Agenten-Benchmark auftreten – von API-Missbrauch über Tool-Chain-Fehler bis zu Reasoning-Schwächen in mehrstufigen Workflows.
Abstract
Nach der Einführung von VAKRA im April 2026 folgt nun die tiefgehende Analyse der Ergebnisse. VAKRA testet AI-Agenten in unternehmensnahen Umgebungen mit über 8.000 lokal gehosteten APIs, 62 Domänen und natürlichen Tool-Use-Constraints. Die Aufgaben benötigen 3-7-Schritt-Reasoning-Ketten, die strukturierte API-Interaktion mit unstrukturierter Dokumentenretrieval kombinieren.
Die Ergebnisse zeigen deutliche Schwächen: Selbst führende Modelle erreichen auf den komplexeren Aufgaben nur begrenzte Erfolgsraten. Das IBM-Team identifizierte vier Hauptfehlerkategorien: API-Parameter-Fehler, wo Agenten falsche Argumente übergeben oder Rückgabewerte missverstehen; Tool-Chain-Fehler, bei denen die Abfolge von Aufrufen nicht korrekt geplant wird; Reasoning-Fehler in mehrstufigen Workflows; und Kontext-Verlust bei längeren Interaktionen.
Besonders aufschlussreich sind die Beispiele: Wenn ein Agent eine API aufruft, den Rückgabewert aber nicht korrekt für den nächsten Schritt interpretiert, bricht die ganze Kette. Oder wenn mehrere Tools verfügbar sind, wählt das Modell oft das falsche – nicht aus Kapazitätsmangel, sondern weil es den Task nicht in überschaubare Teilschritte zerlegt.
Die Analyse liefert konkrete Empfehlungen für Agent-Entwickler: Bessere Tool-Beschreibungen, explizite Intermediate-Steps und Robustheits-Training gegen unvorhergesehene API-Antworten. Die Benchmark ist open-source und die Leaderboard-Submission ermutigt weitere Teams, ihre Agents zu evaluieren.
Link: Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents