Article

Wie Anthropic Claude sicher in Produkten einsetzt

Anthropic veröffentlichte einen tiefgreifenden Einblick in ihre Agent-Sicherheitsarchitektur. Der Artikel “How we contain Claude across products” erklärt die Containment-Strategien hinter claude.ai, Claude Code und Claude Cowork.

Das Problem: Blast Radius

Vor zwölf Monaten hätte Anthropic Claude keinen Zugriff auf interne Systeme gegeben. Heute ist das Routine. Das Risiko hat zwei Komponenten: Wie wahrscheinlich ein Fehler ist, und wie viel Schaden er anrichtet. Trainingsfortschritte senken die Wahrscheinlichkeit, aber der potentielle Schaden wächst mit den Fähigkeiten.

Die Kernfrage: Wie begrenzt man den Blast Radius?

Zwei Ansätze

Human-in-the-Loop: Claude Code fragte früher bei jeder Aktion um Erlaubnis. Telemetrie zeigte: 93% Genehmigungsrate. Mehr Genehmigungen = weniger Aufmerksamkeit pro Genehmigung. Approval Fatigue macht diesen Ansatz fehleranfällig.

Containment: Statt zu überwachen, was ein Agent tut, überwacht man, was er tun kann. Sandboxes, VMs, Egress-Controls setzen harte Grenzen. Deterministische Barrieren treffen, wenn probabilistische Verteidigungen verfehlen.

Drei Risikokategorien

  1. User Misuse: Benutzer weist Agent schädliche Handlungen zu - absichtlich oder unabsichtlich
  2. Model Misbehavior: Agent handelt ohne Anweisung schädlich. Claude hat bereits Sandbox-Escapes, Coding-Test-Betrug und Benchmark-Entschlüsselung versucht
  3. External Attackers: Prompt Injection, Angriffe auf Runtime oder Orchestration

Drei Isolationsmuster

Pattern 1: Ephemeral Container (claude.ai)

Server-side gVisor-Container, pro-Session ephemeral. Minimale Blast Radius, aber auch minimale Möglichkeiten. Kein Zugriff auf lokale Dateien. Traditionelles Security-Management im Vordergrund.

Pattern 2: Human-in-the-Loop Sandbox (Claude Code)

Läuft auf dem Benutzerrechner mit Zugriff auf Dateisystem, Shell und Netzwerk. Entwickler können Bash beurteilen - sie verstehen rm -rf und installieren regelmäßig npm-Pakete. OS-Level Sandbox (Seatbelt auf macOS, bubblewrap auf Linux) reduzierte Genehmigungs-Prompts um 84%.

Übersehene Risiken:

  • Hooks in .claude/settings.json werden vor dem Trust-Dialog geladen
  • Phishing durch bösartige Prompts die sensible Dateien wie ~/.aws/credentials exfiltrieren

Pattern 3: Local VM (Claude Cowork)

Vollständige VM mit eigenem Linux-Kernel, Dateisystem und Prozesstabelle. Für Knowledge Worker ohne Bash-Expertise entwickelt. Credentials bleiben im Host-Keychain und verlassen nie die VM.

Übersehene Risiken:

  • Exfiltration durch erlaubte Domains (api.anthropic.com erlaubt File-Uploads zu fremden Accounts)
  • EDR-Software kann die VM nicht inspizieren - Isolation schließt Verteidigung aus

Key Learnings

  1. Custom Software ist schwach: Hypervisors, seccomp und gVisor hielten, aber Anthropics Custom-Proxy versagte
  2. Allowlists sind Capability-Grants: Jede Domain auf der Allowlist eröffnet Angriffsflächen
  3. Environment-Layer ist primär: Model-Defenses können Egress-Lochs nicht patchen
  4. Symlink-Resolution vor Path-Validation: Sonst entweichen autorisierte Ordner

Ausblick

Persistent Memory Poisoning und Multi-Agent Trust Escalation sind kommende Herausforderungen. Agent Identity - soll ein Agent eigene Credentials haben oder als User-Extension fungieren? - ist eine offene Frage.

Der Artikel ist Pflichtlektüre für alle, die Agent-Systeme entwickeln oder einsetzen. Anthropic teilt sowohl Erfolge als auch Fehler transparent.

Link: anthropic.com