Article
Wenn KI-Modelle sich nicht einig sind
Eine bahnbrechende Untersuchung von Lenz Research hat eine unbequeme Wahrheit über moderne Sprachmodelle ans Licht gebracht: Die vermeintlich “intelligentesten” KI-Assistenten sind sich bei realen Faktenchecks oft nicht einig. In einer Studie mit 1.000 echten Nutzeranfragen an fünf führende Frontier-LLMs stimmten die Modelle nur in 33% der Fälle überein. Das bedeutet, dass bei zwei Dritteln aller Anfragen mindestens ein Modell von der Mehrheit abwich.
Das Problem geht tiefer als bloße Kalibrierungsunterschiede. Bei 34% der Claims betrug die Diskrepanz zwischen den widersprüchlichsten Urteilen zwei oder mehr Bewertungskategorien – also nicht nur ein Nuancen-Unterschied zwischen “True” und “Mostly True”, sondern fundamentale Meinungsverschiedenheiten. Die Studie nutzte eine 4-Stufen-Skala: True, Mostly True, Misleading, False.
Interessant ist auch die Beobachtung, dass innerhalb der einstimmigen Urteile fast ausschließlich “True” oder “False” vorkamen – die nuancierten中间kategorien waren selten konsensfähig. Die Krippendorff’s α von 0,639 zeigt eine strukturierte, aber begrenzte Übereinstimmung zwischen den Modellen. Für Entwickler bedeutet dies: Man kann das Ergebnis eines einzelnen LLM nicht als Ground Truth behandeln, selbst wenn es sich um ein “Frontier-Modell” handelt. Ensemble-Methoden oder menschliche Überprüfung bleiben unverzichtbar.