Article
Fable Guardrails: Security-Forscher unzufrieden
Die Enttäuschung
Anthropic hat Claude Fable als öffentliche, limitierte Version des viel gehypten Mythos-Cybersecurity-Modells veröffentlicht. Aber Security-Forscher zeigen sich frustriert über die restriktiven Guardrails.
"[Fable] lehnt jede Anfrage ab, die tangential mit Cyber zu tun hat. Selbst harmlose Aufgaben wie einen Blogpost lesen." — Valentina “Chompie” Palmiotti, IBM X-Force
Das Problem
Wenn Guardrails ausgelöst werden, pausiert Fable den Chat mit der Nachricht:
“Sicherheitsmaßnahmen haben diese Nachricht für Cybersecurity- oder Biologie-Themen markiert.”
Das Problem: Die Filter sind keyword-basiert statt kontextsensitiv.
Konkrete Beispiele
- Code-Review-Anfragen werden blockiert
- “Secure Code”-Anfragen werden auf Claude Opus 4.8 heruntergestuft
- Alles im lexikalischen Feld von “Cybersecurity” triggert die Guardrails
Die Hintergründe
Fable teilt dieselbe Basismodell-Architektur wie Mythos 5, aber mit zusätzlichen Safeguards:
- Cyber-Domain: Malware-Entwicklung, Software-Exploits
- Bio-Domain: Biologische Waffenentwicklung
Diese Safeguards ermöglichen breitere Veröffentlichung, aber zum Preis starker Einschränkungen.
Mythos-Zugang
- April 2026: Mythos auf “Project Glasswing” limitiert – nur ausgewählte Unternehmen
- Juni 2026: Erweiterung auf hunderte Organisationen in 15 Ländern
- Cyber Verification Program: Verifizierte Security-Forscher erhalten weniger Einschränkungen
Expertenmeinungen
Matt Suiche (Tolmo, AI-Security-Startup):
“Es ist verständlich, da wir noch in frühen Tagen sind. Better to catch more people than not enough when you do such a release.”
Die Guardrails werden sich vermutlich mit der Zeit lockern, wenn Anthropic mehr mit der Security-Community zusammenarbeitet.
Alternative: OpenAI Trusted Access
OpenAI bietet ein ähnliches Programm namens Trusted Access for Cyber für verifizierte Security-Professionals.
Fazit
Fable ist ein wichtiger Schritt für AI-Security-Tools, aber die aktuelle Implementierung leidet unter zu aggressiven, kontextlosen Filtern. Security-Forscher können das Modell kaum produktiv nutzen, ohne ständig gegen Guardrails zu laufen.