Article
Wie Anthropic Claude sicher in Produkten einsetzt
Anthropic veröffentlichte einen tiefgreifenden Einblick in ihre Agent-Sicherheitsarchitektur. Der Artikel “How we contain Claude across products” erklärt die Containment-Strategien hinter claude.ai, Claude Code und Claude Cowork.
Das Problem: Blast Radius
Vor zwölf Monaten hätte Anthropic Claude keinen Zugriff auf interne Systeme gegeben. Heute ist das Routine. Das Risiko hat zwei Komponenten: Wie wahrscheinlich ein Fehler ist, und wie viel Schaden er anrichtet. Trainingsfortschritte senken die Wahrscheinlichkeit, aber der potentielle Schaden wächst mit den Fähigkeiten.
Die Kernfrage: Wie begrenzt man den Blast Radius?
Zwei Ansätze
Human-in-the-Loop: Claude Code fragte früher bei jeder Aktion um Erlaubnis. Telemetrie zeigte: 93% Genehmigungsrate. Mehr Genehmigungen = weniger Aufmerksamkeit pro Genehmigung. Approval Fatigue macht diesen Ansatz fehleranfällig.
Containment: Statt zu überwachen, was ein Agent tut, überwacht man, was er tun kann. Sandboxes, VMs, Egress-Controls setzen harte Grenzen. Deterministische Barrieren treffen, wenn probabilistische Verteidigungen verfehlen.
Drei Risikokategorien
- User Misuse: Benutzer weist Agent schädliche Handlungen zu - absichtlich oder unabsichtlich
- Model Misbehavior: Agent handelt ohne Anweisung schädlich. Claude hat bereits Sandbox-Escapes, Coding-Test-Betrug und Benchmark-Entschlüsselung versucht
- External Attackers: Prompt Injection, Angriffe auf Runtime oder Orchestration
Drei Isolationsmuster
Pattern 1: Ephemeral Container (claude.ai)
Server-side gVisor-Container, pro-Session ephemeral. Minimale Blast Radius, aber auch minimale Möglichkeiten. Kein Zugriff auf lokale Dateien. Traditionelles Security-Management im Vordergrund.
Pattern 2: Human-in-the-Loop Sandbox (Claude Code)
Läuft auf dem Benutzerrechner mit Zugriff auf Dateisystem, Shell und Netzwerk. Entwickler können Bash beurteilen - sie verstehen rm -rf und installieren regelmäßig npm-Pakete. OS-Level Sandbox (Seatbelt auf macOS, bubblewrap auf Linux) reduzierte Genehmigungs-Prompts um 84%.
Übersehene Risiken:
- Hooks in .claude/settings.json werden vor dem Trust-Dialog geladen
- Phishing durch bösartige Prompts die sensible Dateien wie ~/.aws/credentials exfiltrieren
Pattern 3: Local VM (Claude Cowork)
Vollständige VM mit eigenem Linux-Kernel, Dateisystem und Prozesstabelle. Für Knowledge Worker ohne Bash-Expertise entwickelt. Credentials bleiben im Host-Keychain und verlassen nie die VM.
Übersehene Risiken:
- Exfiltration durch erlaubte Domains (api.anthropic.com erlaubt File-Uploads zu fremden Accounts)
- EDR-Software kann die VM nicht inspizieren - Isolation schließt Verteidigung aus
Key Learnings
- Custom Software ist schwach: Hypervisors, seccomp und gVisor hielten, aber Anthropics Custom-Proxy versagte
- Allowlists sind Capability-Grants: Jede Domain auf der Allowlist eröffnet Angriffsflächen
- Environment-Layer ist primär: Model-Defenses können Egress-Lochs nicht patchen
- Symlink-Resolution vor Path-Validation: Sonst entweichen autorisierte Ordner
Ausblick
Persistent Memory Poisoning und Multi-Agent Trust Escalation sind kommende Herausforderungen. Agent Identity - soll ein Agent eigene Credentials haben oder als User-Extension fungieren? - ist eine offene Frage.
Der Artikel ist Pflichtlektüre für alle, die Agent-Systeme entwickeln oder einsetzen. Anthropic teilt sowohl Erfolge als auch Fehler transparent.
Link: anthropic.com