Article

Studie: LLMs verderben Dokumente bei delegierten Aufgaben

May 09, 2026 llm delegation study

DELEGATE-52 Benchmark enthüllt systematische Degradation

Forscher haben DELEGATE-52 eingeführt, einen Benchmark, der simuliert, wie LLMs Dokumente über lange Workflows bearbeiten. Das Ergebnis ist besorgniserregend: Selbst frontier Modelle wie Gemini 3.1 Pro, Claude 4.6 Opus und GPT 5.4 korrumpieren durchschnittlich 25% des Inhalts.

Die Kernergebnisse

Die Studie mit 19 verschiedenen LLMs zeigt, dass aktuelle Modelleunzuverlässige Delegierte sind. Sie führen spärliche, aber schwere Fehler ein, die sich über lange Interaktionen anhäufen. Agentic Tool-Use verbessert die Leistung nicht – die Degradation bleibt bestehen.

Warum das wichtig ist

„Vibe Coding" und delegierte Arbeit sind das neue Paradigma der KI-Interaktion. Doch diese Studie zeigt: Das Vertrauen, das wir in LLMs setzen, wenn wir ihnen Dokumente anvertrauen, ist oft unberechtigt. Ein Viertel des Dokumenteninhalts wird beschädigt.

Die Probleme werden verschärft durch:

Größere Dokumente
Längere Interaktionszeiten
Vorhandensein von Ablenkungsdateien

Link: Original bei arXiv