Article

Ai2 veroeffentlicht olmo-eval - Evaluierungs-Workbench fuer LLMs

llm evaluation allenai open-source

Neues Tool

Allen AI (Ai2) hat olmo-eval veroeffentlicht, eine Evaluierungs-Workbench fuer den LLM-Entwicklungszyklus. Das Tool baut auf OLMES auf, dem Open Language Model Evaluation Standard von 2024, und erweitert ihn um funktionale Workflows.

Problemstellung

Waehrend der LLM-Entwicklung werden Modelle wiederholt evaluiert - bei jeder Aenderung an Daten, Architektur oder Hyperparametern. Die meisten Evaluierungs-Tools sind entweder fuer fertige Modelle konzipiert oder fuer komplexe Agent-Szenarien. olmo-eval fuellt die Luecke fuer den iterativen Entwicklungsprozess.

Funktionen

  • Schnelle Implementierung neuer Evaluierungen
  • Flexible Konfiguration von Laufzeitumgebungen
  • Komposition einzelner Komponenten zu groesseren Workflows
  • Erstklassige Unterstuetzung fuer agentische und Multi-Turn-Evaluation
  • Analyse-Tools zur Unterscheidung zwischen echter Verbesserung und Rauschen

Vergleich mit Harbor

olmo-eval ueberschneidet sich teilweise mit Harbor, einem Framework fuer Agent-Evaluierung in Container-Umgebungen. Der Unterschied: Harbor zielt auf Benchmark-Runs fertiger Agenten, olmo-eval auf die taegliche Arbeit der Modellentwicklung - vom Hinzufuegen von Benchmarks ueber Checkpoint-Evaluierung bis zur Prompt-fuer-Prompt-Analyse.

Verfuegbarkeit

Der Code ist Open-Source auf GitHub verfuegbar: github.com/allenai/olmo-eval

Link: HuggingFace Blog