Article
KI-Modelle scheitern an Enterprise-IT-Aufgaben: ITBench-AA Benchmark veröffentlicht
Ein neuer Benchmark deckt systematische Schwächen bei KI-Modellen auf: Kein Frontier-Modell erreicht die 50%-Marke bei realistischen IT-Aufgaben.
Kurzbeschreibung
Artificial Analysis und IBM veröffentlichen ITBench-AA, den ersten Benchmark für agentische Enterprise-IT-Aufgaben mit überraschenden Ergebnissen.
Abstract
Die Ergebnisse des neuen ITBench-AA Benchmarks sind ein Weckruf für die KI-Industrie: Kein einziges Frontier-Modell erreicht die 50%-Hürde bei komplexen Enterprise-IT-Aufgaben. Claude Opus 4.7 führt mit 47%, gefolgt von GPT-5.5 mit 46% und Qwen3.7 Max mit 42%. Der Benchmark testet Site Reliability Engineering (SRE) Fähigkeiten anhand von 59 Kubernetes-Incident-Szenarien.
Dabei werden typische Fehlermodi wie Ressourcenquoten-Erschöpfung, Rollout-Fehler, Connection-Pool-Probleme und Netzwerkpartitionen abgedeckt. Besonders interessant: Längere Untersuchungswege korrelieren nicht mit besseren Ergebnissen. Modelle, die zu viel Zeit mit Analyse verbringen, identifizieren oft fälschlicherweise Upstream-Mechanismen oder koinzidierende Symptome als Root Causes.
Bei den Open-Weights-Modellen führt GLM-5.1 (Reasoning) mit 40%, dicht gefolgt von DeepSeek V4 Pro mit 38%. Der Benchmark nutzt ein konsistentes Stirrup-Harness über alle Modelle hinweg und ermöglicht Shell-Zugriff auf sandboxierte Dateisysteme mit relevanten Logs und Snapshots. Die Ergebnisse zeigen, dass trotz beeindruckender Sprachfähigkeiten die praktische Anwendung in komplexen IT-Umgebungen noch erhebliche Lücken aufweist.
Link zum Original: https://huggingface.co/blog/ibm-research/itbench-aa