Article
ITBench-AA - Erster Agenten-Benchmark fuer Enterprise-IT
IBM und Artificial Analysis haben ITBench-AA veroeffentlicht. Der erste Benchmark speziell fuer agentische IT-Tasks.
Was ist ITBench-AA
ITBench-AA testet Infrastructure Management, Troubleshooting, Security Operations und Code-Base-Navigation.
Die Ergebnisse sind ernuechternd: Selbst Claude Opus 4 erreicht nur 47.2%, GPT-4o 44.8%. Kein Modell erreicht die 50%-Schwelle.
Implikationen fuer Enterprise-AI
Agentische IT-Automation erfordert Human-in-the-Loop. Agenten nur fuer gut-definierte Teil-Tasks einsetzen. Jede Agent-Action muss ueberwacht werden.