Article

EVA-Bench Data 2.0: Agenten-Benchmark mit 213 Szenarien

ServiceNow Agents Benchmark Tools Evaluation

ServiceNow AI veröffentlicht EVA-Bench Data 2.0, ein umfassender Benchmark für AI-Agenten mit 3 Domains, 121 Tools, 213 Szenarien – realistische Multi-Step-Workflows zur Evaluation von Tool-Use und Reasoning.

Was misst EVA-Bench?

Agenten-Benchmarks sind oft zu abstrakt. EVA-Bench testet mit echten Enterprise-Workflows:

  • 3 Domains: Service Management, HR Operations, IT Operations
  • 121 Tools: APIs, Datenbanken, externe Services
  • 213 Szenarien: Multi-step Tasks mit Dependencies

Jedes Szenario hat:

  • Natural Language Prompt
  • Tool-Definitionen
  • Erwarteter Success-Path
  • Ground-Truth-Outputs

Warum relevant?

Die meisten Agenten-Benchmarks (WebShop, Mind2Web) focusieren auf Web-Interaktion. EVA-Bench bringt Enterprise-Tool-Orchestration in den Fokus:

  • Tool Selection Accuracy
  • Parameter Extraction Accuracy
  • Multi-Step Success Rate
  • Hallucination Rate bei Tool Calls

ServiceNow setzt den Standard für Agenten-Evaluation in Enterprise-Kontexten.

Dataset: EVA-Bench Data 2.0 | Blog