Article
EVA-Bench Data 2.0: Agenten-Benchmark mit 213 Szenarien
ServiceNow AI veröffentlicht EVA-Bench Data 2.0, ein umfassender Benchmark für AI-Agenten mit 3 Domains, 121 Tools, 213 Szenarien – realistische Multi-Step-Workflows zur Evaluation von Tool-Use und Reasoning.
Was misst EVA-Bench?
Agenten-Benchmarks sind oft zu abstrakt. EVA-Bench testet mit echten Enterprise-Workflows:
- 3 Domains: Service Management, HR Operations, IT Operations
- 121 Tools: APIs, Datenbanken, externe Services
- 213 Szenarien: Multi-step Tasks mit Dependencies
Jedes Szenario hat:
- Natural Language Prompt
- Tool-Definitionen
- Erwarteter Success-Path
- Ground-Truth-Outputs
Warum relevant?
Die meisten Agenten-Benchmarks (WebShop, Mind2Web) focusieren auf Web-Interaktion. EVA-Bench bringt Enterprise-Tool-Orchestration in den Fokus:
- Tool Selection Accuracy
- Parameter Extraction Accuracy
- Multi-Step Success Rate
- Hallucination Rate bei Tool Calls
ServiceNow setzt den Standard für Agenten-Evaluation in Enterprise-Kontexten.