Article

Fable Guardrails: Security-Forscher unzufrieden

June 11, 2026 AI Anthropic Claude Security Fable Mythos

Die Enttäuschung

Anthropic hat Claude Fable als öffentliche, limitierte Version des viel gehypten Mythos-Cybersecurity-Modells veröffentlicht. Aber Security-Forscher zeigen sich frustriert über die restriktiven Guardrails.

"[Fable] lehnt jede Anfrage ab, die tangential mit Cyber zu tun hat. Selbst harmlose Aufgaben wie einen Blogpost lesen." — Valentina “Chompie” Palmiotti, IBM X-Force

Das Problem

Wenn Guardrails ausgelöst werden, pausiert Fable den Chat mit der Nachricht:

“Sicherheitsmaßnahmen haben diese Nachricht für Cybersecurity- oder Biologie-Themen markiert.”

Das Problem: Die Filter sind keyword-basiert statt kontextsensitiv.

Konkrete Beispiele

Code-Review-Anfragen werden blockiert
“Secure Code”-Anfragen werden auf Claude Opus 4.8 heruntergestuft
Alles im lexikalischen Feld von “Cybersecurity” triggert die Guardrails

Die Hintergründe

Fable teilt dieselbe Basismodell-Architektur wie Mythos 5, aber mit zusätzlichen Safeguards:

Cyber-Domain: Malware-Entwicklung, Software-Exploits
Bio-Domain: Biologische Waffenentwicklung

Diese Safeguards ermöglichen breitere Veröffentlichung, aber zum Preis starker Einschränkungen.

Mythos-Zugang

April 2026: Mythos auf “Project Glasswing” limitiert – nur ausgewählte Unternehmen
Juni 2026: Erweiterung auf hunderte Organisationen in 15 Ländern
Cyber Verification Program: Verifizierte Security-Forscher erhalten weniger Einschränkungen

Expertenmeinungen

Matt Suiche (Tolmo, AI-Security-Startup):

“Es ist verständlich, da wir noch in frühen Tagen sind. Better to catch more people than not enough when you do such a release.”

Die Guardrails werden sich vermutlich mit der Zeit lockern, wenn Anthropic mehr mit der Security-Community zusammenarbeitet.

Alternative: OpenAI Trusted Access

OpenAI bietet ein ähnliches Programm namens Trusted Access for Cyber für verifizierte Security-Professionals.

Fazit

Fable ist ein wichtiger Schritt für AI-Security-Tools, aber die aktuelle Implementierung leidet unter zu aggressiven, kontextlosen Filtern. Security-Forscher können das Modell kaum produktiv nutzen, ohne ständig gegen Guardrails zu laufen.

TechCrunch