Article
KI-Agenten in der Praxis: ITBench-AA Benchmark zeigt Grenzen auf
Artificial Analysis und IBM haben mit ITBench-AA einen neuen Benchmark veröffentlicht, der KI-Agenten auf realen Enterprise-IT-Aufgaben testet. Der Fokus liegt auf Site Reliability Engineering (SRE) – konkret auf der Diagnose von Kubernetes-Incident-Response-Szenarien. Agenten müssen Log-Dateien analysieren, Abhängigkeiten verfolgen und Root-Cause-Entities in komplexer Infrastruktur identifizieren.
Die Ergebnisse sind ernüchternd: Kein einziges Frontier-Model erreicht 50%. Claude Opus 4.7 führt mit 47%, gefolgt von GPT-5.5 mit 46% und Qwen3.7 Max mit 42%. Damit gehört ITBench-AA zu den am wenigsten gesättigten agentischen Benchmarks – die Modelle haben hier noch deutliches Entwicklungspotenzial.
Interessant ist auch der Zusammenhang zwischen Aufwand und Genauigkeit: Modelle mit mehr Untersuchungsschritten erreichen nicht automatisch bessere Ergebnisse. GPT-5.5 benötigt durchschnittlich 31 Turns bei 46% Genauigkeit, während Gemini 3.1 Pro Preview 83 Turns braucht und nur 30% erreicht. Übermäßige Investigierung führt oft zu False Positives, wenn Agenten Upstream-Fault-Injection-Mechanismen oder koexistierende Symptome als Ursachen identifizieren.
Der Benchmark umfasst 59 SRE-Tasks und verwendet ein strenges Scoring: Wird eine Root Cause verpasst, gibt es 0 Punkte. Nur wenn alle gefunden werden, zählt die Precision. Details im Originalartikel.