Article

QIMMA: Qualitätsorientiertes Arabic LLM Leaderboard

arabic llm leaderboard benchmark evaluation

Arabische NLP-Evaluation steht vor einem grundlegenden Problem: Die Anzahl der Benchmarks wächst rasant, aber werden wir wirklich das messen, was wir glauben? Das Technology Innovation Institute hat mit QIMMA (arabisch für “Gipfel”) eine Antwort entwickelt, die systematische Qualitätsvalidierung vor jede Bewertung durchführt.

Das Problem fragmentierter Evaluation

Arabisch wird von über 400 Millionen Menschen in unterschiedlichen Dialekten und kulturellen Kontexten gesprochen. Die arabische NLP-Landschaft bleibt jedoch fragmentiert: Viele Benchmarks sind direkte Übersetzungen aus dem Englischen, was Verteilungsverschiebungen einführt. Fragen, die auf Englisch natürlich wirken, werden auf Arabisch unnatürlich oder kulturell unpassend.

Selbst native arabische Benchmarks werden oft ohne rigorose Qualitätsprüfungen veröffentlicht. Annotationsinkonsistenzen, falsche Gold-Antworten, Encoding-Fehler und kulturelle Verzerrungen in Ground-Truth-Labels wurden alle in etablierten Ressourcen dokumentiert. Dazu kommen Reproduzierbarkeitslücken: Evaluationsskripte und per-sample Outputs werden selten öffentlich bereitgestellt.

QIMMAs Lösungsansatz

QIMMA wendet eine strenge Qualitätsvalidierungspipeline an, bevor Modelle bewertet werden. Das Ergebnis war ernüchternd: Selbst weitverbreitete, hoch angesehene arabische Benchmarks enthalten systematische Qualitätsprobleme, die Ergebnisstill still korrumpieren können. Das Leaderboard misst echtes Sprachverständnis statt Oberflächenleistung.

Die Plattform aggregiert nicht einfach existierende Benchmarks, sondern reinigt und validiert diese systematisch. Modelle werden nur auf qualitätsgeprüften Daten evaluiert, was aussagekräftigere Rankings ermöglicht.

Verfügbarkeit: Leaderboard, GitHub-Repository und Paper sind öffentlich zugänglich. Entwickler können eigene Modelle zur Live-Leaderboard-Submission einreichen.

Zum QIMMA Leaderboard