Article
KI-Sicherheit verstehen: Prompt-Injection und Jailbreaks
Prompt-Injection ist eine der wichtigsten Sicherheitslücken in KI-Systemen. Um sich dagegen zu wehren, muss man verstehen, wie Angreifer vorgehen.
Was ist Prompt-Injection?
Prompt-Injection nutzt aus, dass Sprachmodelle nicht zwischen „Anweisungen vom Entwickler" und „Eingaben vom Nutzer" unterscheiden können. Ein Angreifer schickt Text, der das Modell dazu bringt, seine ursprünglichen Anweisungen zu ignorieren.
Bekannte Techniken
Die „ZetaLib"-Sammlung dokumentiert verschiedene Jailbreak-Methoden, darunter:
- Role-Playing: Das Modell wird in eine Rolle versetzt, die Sicherheitsrichtlinien ignoriert
- Context Overflow: Überladen des Kontexts mit verwirrenden Anweisungen
- Special Characters: Nutzung von Unicode-Zeichen, die Tokenizer durcheinanderbringen
- Multi-Modal Attacks: Kombination von Text mit Bildern, die versteckte Anweisungen enthalten
Defensive Strategien
1. Input-Validierung
Filtern Sie verdächtige Muster bevor sie das Modell erreichen. Achten Sie auf:
- Unerwartete Rollenwechsel
- Base64-kodierte Strings
- Mehrdeutige Prompt-Konstruktionen
2. System-Prompt-Härtung
Platzieren Sie kritische Anweisungen am Ende des System-Prompts, nicht am Anfang. Modelle gewichten spätere Anweisungen oft stärker.
3. Output-Überwachung
Überwachen Sie Modell-Outputs auf Anzeichen erfolgreicher Injections:
- Unerwartete Rollenwechsel in der Antwort
- Offenlegung von System-Informationen
- Generierung unerlaubter Inhalte
Ethische Hinweise
Das Studium von Jailbreak-Techniken dient der Verbesserung von Sicherheitsmechanismen. Nutzen Sie dieses Wissen nicht für Angriffe auf produktive Systeme.