Article

Wenn KI-Modelle sich nicht einig sind: Studie zeigt massive Uneinigkeit bei Faktenchecks

Eine bahnbrechende Studie von Lenz Research zeigt ein ernüchterndes Bild: Fünf führende Frontier-LLMs kommen bei 67% aller realen Faktenchecks zu unterschiedlichen Bewertungen. Die Forscher rund um Kosta Jordanov präsentierten 1.000 echte Benutzer-Claims einer Fact-Checking-Plattform fünf Top-KI-Modellen und baten um ein Urteil nach einem Vier-Punkte-Schema: Wahr, Größenteils Wahr, Irreführend oder Falsch.

Nur bei 33% der Fälle waren sich alle Modelle einig. Bei 34% der Claims bestand sogar eine “substantielle Uneinigkeit” – die Urteile unterschieden sich um zwei oder mehr Kategorien. Besonders problematisch: Die Mitte des Bewertungsspektrums. Von den 328 einstimmigen Urteilen waren lediglich vier “Irreführend” und kein einziges “Größenteils Wahr”.

Der Krippendorff’s α von 0,639 bestätigt eine begrenzte Übereinstimmung zwischen den Modellen. Das bedeutet: Die Urteile sind nicht zufällig, aber bei weitem nicht konsistent genug, um KI als verlässlichen Faktenchecker zu betrachten. Während Benchmark-Tests oft gekünstelte Antworten liefern, zeigt diese Studie mit echten Nutzeranfragen ein realistischeres Bild der KI-Leistung bei der Wahrheitsfindung.

Originalquelle: Lenz Research - Beyond Benchmarks: Frontier LLM Disagreement on Fact-Checks