Article

ITBench-AA - Erster Agenten-Benchmark fuer Enterprise-IT

IBM und Artificial Analysis haben ITBench-AA veroeffentlicht. Der erste Benchmark speziell fuer agentische IT-Tasks.

Was ist ITBench-AA

ITBench-AA testet Infrastructure Management, Troubleshooting, Security Operations und Code-Base-Navigation.

Die Ergebnisse sind ernuechternd: Selbst Claude Opus 4 erreicht nur 47.2%, GPT-4o 44.8%. Kein Modell erreicht die 50%-Schwelle.

Implikationen fuer Enterprise-AI

Agentische IT-Automation erfordert Human-in-the-Loop. Agenten nur fuer gut-definierte Teil-Tasks einsetzen. Jede Agent-Action muss ueberwacht werden.

ITBench-AA Benchmark