Article

EVA-Bench Data 2.0: Agenten-Benchmark mit 213 Szenarien

June 04, 2026 ServiceNow Agents Benchmark Tools Evaluation

ServiceNow AI veröffentlicht EVA-Bench Data 2.0, ein umfassender Benchmark für AI-Agenten mit 3 Domains, 121 Tools, 213 Szenarien – realistische Multi-Step-Workflows zur Evaluation von Tool-Use und Reasoning.

Was misst EVA-Bench?

Agenten-Benchmarks sind oft zu abstrakt. EVA-Bench testet mit echten Enterprise-Workflows:

3 Domains: Service Management, HR Operations, IT Operations
121 Tools: APIs, Datenbanken, externe Services
213 Szenarien: Multi-step Tasks mit Dependencies

Jedes Szenario hat:

Natural Language Prompt
Tool-Definitionen
Erwarteter Success-Path
Ground-Truth-Outputs

Warum relevant?

Die meisten Agenten-Benchmarks (WebShop, Mind2Web) focusieren auf Web-Interaktion. EVA-Bench bringt Enterprise-Tool-Orchestration in den Fokus:

Tool Selection Accuracy
Parameter Extraction Accuracy
Multi-Step Success Rate
Hallucination Rate bei Tool Calls

ServiceNow setzt den Standard für Agenten-Evaluation in Enterprise-Kontexten.

Dataset: EVA-Bench Data 2.0 | Blog