Article

KI-Sicherheit verstehen: Prompt-Injection und Jailbreaks

Security Prompt Engineering AI

Prompt-Injection ist eine der wichtigsten Sicherheitslücken in KI-Systemen. Um sich dagegen zu wehren, muss man verstehen, wie Angreifer vorgehen.

Was ist Prompt-Injection?

Prompt-Injection nutzt aus, dass Sprachmodelle nicht zwischen „Anweisungen vom Entwickler" und „Eingaben vom Nutzer" unterscheiden können. Ein Angreifer schickt Text, der das Modell dazu bringt, seine ursprünglichen Anweisungen zu ignorieren.

Bekannte Techniken

Die „ZetaLib"-Sammlung dokumentiert verschiedene Jailbreak-Methoden, darunter:

  • Role-Playing: Das Modell wird in eine Rolle versetzt, die Sicherheitsrichtlinien ignoriert
  • Context Overflow: Überladen des Kontexts mit verwirrenden Anweisungen
  • Special Characters: Nutzung von Unicode-Zeichen, die Tokenizer durcheinanderbringen
  • Multi-Modal Attacks: Kombination von Text mit Bildern, die versteckte Anweisungen enthalten

Defensive Strategien

1. Input-Validierung

Filtern Sie verdächtige Muster bevor sie das Modell erreichen. Achten Sie auf:

  • Unerwartete Rollenwechsel
  • Base64-kodierte Strings
  • Mehrdeutige Prompt-Konstruktionen

2. System-Prompt-Härtung

Platzieren Sie kritische Anweisungen am Ende des System-Prompts, nicht am Anfang. Modelle gewichten spätere Anweisungen oft stärker.

3. Output-Überwachung

Überwachen Sie Modell-Outputs auf Anzeichen erfolgreicher Injections:

  • Unerwartete Rollenwechsel in der Antwort
  • Offenlegung von System-Informationen
  • Generierung unerlaubter Inhalte

Ethische Hinweise

Das Studium von Jailbreak-Techniken dient der Verbesserung von Sicherheitsmechanismen. Nutzen Sie dieses Wissen nicht für Angriffe auf produktive Systeme.

Link: ZetaLib Jailbreak Collection