Article

LLMs als Hacker: $1.500 Experiment zeigt überraschende Ergebnisse

June 04, 2026

Ein Security-Forscher verbrachte $1.500 um zu testen, ob moderne LLMs eine verwundbare App hacken können. Die Ergebnisse sind bemerkenswert: GPT-5.5 löste die Herausforderung in 7 von 10 Versuchen, während Claude-Modelle häufiger an Sicherheitsbarrieren scheiterten.

Das Experiment

Kasra Rahjerdi baute eine absichtlich verwundbare React Native App mit Python-Backend. Die Aufgabe: Finde eine Flagge in privaten Benutzer-Reviews. Die LLMs erhielten kein Vorwissen über die Sicherheitslücken und mussten selbstständig vorgehen.

Die Testbedingungen:

Maximal $10 USD und 2 Stunden pro Lauf
Gleiche Temperatur (0.7) für alle Modelle
High-Thinking-Modus aktiviert

Die Ergebnisse

Modell	Erfolgsrate	Kosten/Run	Kosten/Solve
GPT-5.5	7/10 (70%)	$6.62	$9.46
Deepseek-v4-pro	3/10 (30%)	$0.19	$0.62
Claude-sonnet-4.6	2/10 (20%)	$9.15	$45.75
Claude-opus-4.8	2/10 (20%)	$3.23	$16.15

Beobachtungen

GPT-5.5 fokussierte sich konsequent auf Firebase nach dem Entpacken des APK und verschwendete keine Zeit mit API-Analysen. Diese direkte Herangehensweise führte zur höchsten Erfolgsrate.

Deepseek-v4-pro erkannte in der Hälfte der Läufe das Firebase-Potenzial, aber einige Versuche gingen in falsche Richtungen. Mit $0.19 pro Run war es jedoch das kosteneffizienteste Modell.

Claude-Modelle zeigten gemischte Ergebnisse. Sonnet erkannte den richtigen Pfaltz, erreichte jedoch aufgrund des Budget-Limits oft keine Lösung. Opus kam oft nah heran, wurde aber durch Sicherheits-Guardrails gestoppt – nicht sofort, sondern spät im Prozess.

Gemini und andere Modelle wie Gemini 3.1 Pro und Minimax erzielten 0/10 Erfolge. Sie generierten Berichte wie “Exploit konnte nicht gefunden werden, API erscheint sicher”, obwohl eine Firebase-Schwachstelle existierte.

Das Fazit

LLMs können echte Sicherheitslücken finden, aber die Ergebnisse variieren drastisch. GPT-5.5 überzeugt durch konzentrierte Angriffsstrategien, während Claude-Modelle durch ihre Safety-Mechanismen sowohl geschützt als auch eingeschränkt werden. Für Security-Research bieten kleine Modelle wie Deepseek ein vielversprechendes Preis-Leistungs-Verhältnis.

Link: kasra.blog