Article

Anthropic entschuldigt sich für unsichtbare Claude Fable Guardrails

Anthropic hat sich für versteckte Guardrails in Claude Fable 5 entschuldigt, die Nutzer bei Distillations-Versuchen ohne Warnung drosselten. Das Unternehmen ändert nun seinen Ansatz und wird Transparenz bieten.

Fable ist das erste öffentlich verfügbare Modell aus Anthropics Mythos-Klasse. In der System Card dokumentierte das Unternehmen eine Schutzmaßnahme gegen Distillation: Verdächtige Queries wurden stillschweigend verändert und verschlechtert – Nutzer bekamen keine Rückmeldung.

Die Kritik: Forscher und Konkurrenten konnten nicht unterscheiden, ob eine Antwort korrekt war oder manipuliert wurde. Kritiker warnten, dies untergrabe auch die Evaluation des Modells durch Dritte.

Die Änderung: Distillation-Queries werden nun an Claude Opus 4.8 weitergeleitet, mit sichtbarer Benachrichtigung: “You will see this every time it happens.” Das entspricht der Handhabung anderer High-Risk-Bereiche wie Biologie und Chemie.

Anthropic schrieb auf X: “Visible safeguards can be probed, so they have to be robust. Invisible safeguards can be targeted more narrowly, allowing us to ship quickly. We went with invisible safeguards – and that was the wrong tradeoff. We’re sorry for not getting the balance right.”

Die Kehrtwende folgt auf scharfe Kritik aus der AI-Forschungs-Community. Sichtbare Guardrails sind zwar angreifbarer, aber transparent – ein wichtiger Schritt für Vertrauen in die AI-Sicherheitsforschung.