Article
ASR Leaderboard: Schutz vor Benchmark-Gaming mit privaten Daten
Hugging Face erweitert den Open ASR Leaderboard um private Testdatensätze und schützt so vor Overfitting und Goodharts Gesetz.
Kurzbeschreibung
Der Open ASR Leaderboard nutzt nun private ASR-Datensätze von Appen und DataoceanAI, um Benchmaxxing zu verhindern. Modell-Entwickler können private Testdaten optional in die Bewertung einbeziehen.
Abstract
“Wenn ein Mass zu einem Ziel wird, verliert es seine Eignung als Mass.” Goodharts Gesetz beschreibt das Kernproblem öffentlicher Benchmarks: Modelle werden auf den Testdaten trainiert oder überangepasst. Der Open ASR Leaderboard, seit September 2023 über 710.000 Mal besucht, begegnet diesem Problem mit einem neuen Ansatz.
Appen Inc. und DataoceanAI haben qualitativ hochwertige englische ASR-Datasets bereitgestellt, die scripted und conversational Speech über verschiedene Akzente abdecken. Diese Datensätze bleiben privat und sind für das Training öffentlicher Modelle nicht zugänglich. Das verhindert Test-Set-Kontamination und Overfitting.
Der durchschnittliche WER (Word Error Rate) auf dem Leaderboard wird nach wie vor nur auf öffentlichen Daten berechnet. Entwickler können jedoch über einen Toggle die privaten Datensätze einbeziehen und deren Einfluss auf die Performance sehen. Das ist ein wichtiger Schritt für die Bewertung von Spracherkennungsmodellen, ohne die Integrität öffentlicher Benchmarks zu untergraben.
Link: Hugging Face Blog