Article

ITBench-AA: Enterprise-IT-Benchmark zeigt Schwächen aller KI-Modelle

Künstliche Intelligenz revolutioniert Unternehmen, aber wie gut schlagen sich KI-Agenten bei echten IT-Aufgaben? Ein neuer Benchmark liefert überraschende Ergebnisse.

Kurzbeschreibung

Artificial Analysis und IBM stellen mit ITBench-AA den ersten Benchmark für agentische Enterprise-IT-Aufgaben vor – mit dem ernüchternden Ergebnis, dass kein Modell die 50%-Hürde erreicht.

Abstract

ITBench-AA ist ein bahnbrechender Benchmark, der speziell für komplexe Enterprise-IT-Aufgaben entwickelt wurde. Die initiale Version konzentriert sich auf Site Reliability Engineering (SRE), wobei Modelle Kubernetes-Incident-Snapshots analysieren und Root Causes identifizieren müssen. Insgesamt 59 Aufgaben – 40 öffentliche und 19 held-out – decken typische Fehlermodi wie Ressourcenquoten-Erschöpfung, Rollout-Fehler, Connection-Pool-Probleme und Netzwerkpartitionen ab.

Die Testergebnisse sind bemerkenswert: Claude Opus 4.7 mit Adaptive Reasoning führt das Feld mit 47% an, gefolgt von GPT-5.5 (xhigh) mit 46% und Qwen3.7 Max mit 42%. Bei den Open-Weights-Modellen führt GLM-5.1 (Reasoning) mit 40%, gefolgt von DeepSeek V4 Pro mit 38%. Kein einziges Frontier-Modell erreicht also die Hälfte der Aufgaben.

Interessant ist auch die Erkenntnis, dass längere Untersuchungswege nicht zu besseren Ergebnissen führen. Modelle, die zu viel analysieren, produzieren häufig False Positives, indem sie Upstream-Fault-Injection-Mechanismen oder koinzidierende Symptome fälschlicherweise als Root Causes identifizieren. Der Benchmark nutzt ein Open-Source-Stirrup-Harness mit Shell-Zugriff auf sandboxierte Dateisysteme.

Link zum Original: https://huggingface.co/blog/ibm-research/itbench-aa