Article
Studie: LLMs verderben Dokumente bei delegierten Aufgaben
DELEGATE-52 Benchmark enthüllt systematische Degradation
Forscher haben DELEGATE-52 eingeführt, einen Benchmark, der simuliert, wie LLMs Dokumente über lange Workflows bearbeiten. Das Ergebnis ist besorgniserregend: Selbst frontier Modelle wie Gemini 3.1 Pro, Claude 4.6 Opus und GPT 5.4 korrumpieren durchschnittlich 25% des Inhalts.
Die Kernergebnisse
Die Studie mit 19 verschiedenen LLMs zeigt, dass aktuelle Modelleunzuverlässige Delegierte sind. Sie führen spärliche, aber schwere Fehler ein, die sich über lange Interaktionen anhäufen. Agentic Tool-Use verbessert die Leistung nicht – die Degradation bleibt bestehen.
Warum das wichtig ist
„Vibe Coding" und delegierte Arbeit sind das neue Paradigma der KI-Interaktion. Doch diese Studie zeigt: Das Vertrauen, das wir in LLMs setzen, wenn wir ihnen Dokumente anvertrauen, ist oft unberechtigt. Ein Viertel des Dokumenteninhalts wird beschädigt.
Die Probleme werden verschärft durch:
- Größere Dokumente
- Längere Interaktionszeiten
- Vorhandensein von Ablenkungsdateien
Link: Original bei arXiv