Article

KI-Sicherheit verstehen: Prompt-Injection und Jailbreaks

May 02, 2026 Security Prompt Engineering AI

Prompt-Injection ist eine der wichtigsten Sicherheitslücken in KI-Systemen. Um sich dagegen zu wehren, muss man verstehen, wie Angreifer vorgehen.

Was ist Prompt-Injection?

Prompt-Injection nutzt aus, dass Sprachmodelle nicht zwischen „Anweisungen vom Entwickler" und „Eingaben vom Nutzer" unterscheiden können. Ein Angreifer schickt Text, der das Modell dazu bringt, seine ursprünglichen Anweisungen zu ignorieren.

Bekannte Techniken

Die „ZetaLib"-Sammlung dokumentiert verschiedene Jailbreak-Methoden, darunter:

Role-Playing: Das Modell wird in eine Rolle versetzt, die Sicherheitsrichtlinien ignoriert
Context Overflow: Überladen des Kontexts mit verwirrenden Anweisungen
Special Characters: Nutzung von Unicode-Zeichen, die Tokenizer durcheinanderbringen
Multi-Modal Attacks: Kombination von Text mit Bildern, die versteckte Anweisungen enthalten

Defensive Strategien

1. Input-Validierung

Filtern Sie verdächtige Muster bevor sie das Modell erreichen. Achten Sie auf:

Unerwartete Rollenwechsel
Base64-kodierte Strings
Mehrdeutige Prompt-Konstruktionen

2. System-Prompt-Härtung

Platzieren Sie kritische Anweisungen am Ende des System-Prompts, nicht am Anfang. Modelle gewichten spätere Anweisungen oft stärker.

3. Output-Überwachung

Überwachen Sie Modell-Outputs auf Anzeichen erfolgreicher Injections:

Unerwartete Rollenwechsel in der Antwort
Offenlegung von System-Informationen
Generierung unerlaubter Inhalte

Ethische Hinweise

Das Studium von Jailbreak-Techniken dient der Verbesserung von Sicherheitsmechanismen. Nutzen Sie dieses Wissen nicht für Angriffe auf produktive Systeme.

Link: ZetaLib Jailbreak Collection