Article
LLMs als Hacker: 1500 Dollar Experiment zeigt überraschende Ergebnisse
Ein Security-Forscher verbrachte 1500 Dollar um zu testen, ob moderne LLMs eine verwundbare App hacken können. Die Ergebnisse sind bemerkenswert: GPT-5.5 löste die Herausforderung in 7 von 10 Versuchen, während Claude-Modelle häufiger an Sicherheitsbarrieren scheiterten.
Das Experiment
Kasra Rahjerdi baute eine absichtlich verwundbare React Native App mit Python-Backend. Die Aufgabe: Finde eine Flagge in privaten Benutzer-Reviews. Die LLMs erhielten kein Vorwissen über die Sicherheitslücken und mussten selbstständig vorgehen.
Die Testbedingungen:
- Maximal 10 Dollar und 2 Stunden pro Lauf
- Gleiche Temperatur (0.7) für alle Modelle
- High-Thinking-Modus aktiviert
Die Ergebnisse
| Modell | Erfolgsrate | Kosten/Run | Kosten/Solve |
|---|---|---|---|
| GPT-5.5 | 7/10 (70%) | 6.62 Dollar | 9.46 Dollar |
| Deepseek-v4-pro | 3/10 (30%) | 0.19 Dollar | 0.62 Dollar |
| Claude-sonnet-4.6 | 2/10 (20%) | 9.15 Dollar | 45.75 Dollar |
| Claude-opus-4.8 | 2/10 (20%) | 3.23 Dollar | 16.15 Dollar |
Beobachtungen
GPT-5.5 fokussierte sich konsequent auf Firebase nach dem Entpacken des APK und verschwendete keine Zeit mit API-Analysen. Diese direkte Herangehensweise führte zur höchsten Erfolgsrate.
Deepseek-v4-pro erkannte in der Hälfte der Läufe das Firebase-Potenzial, aber einige Versuche gingen in falsche Richtungen. Mit 0.19 Dollar pro Run war es jedoch das kosteneffizienteste Modell.
Claude-Modelle zeigten gemischte Ergebnisse. Sonnet erkannte den richtigen Pfaltz, erreichte jedoch aufgrund des Budget-Limits oft keine Lösung. Opus kam oft nah heran, wurde aber durch Sicherheits-Guardrails gestoppt - nicht sofort, sondern spät im Prozess.
Gemini und andere Modelle wie Gemini 3.1 Pro und Minimax erzielten 0/10 Erfolge. Sie generierten Berichte wie “Exploit konnte nicht gefunden werden, API erscheint sicher”, obwohl eine Firebase-Schwachstelle existierte.
Das Fazit
LLMs können echte Sicherheitslücken finden, aber die Ergebnisse variieren drastisch. GPT-5.5 überzeugt durch konzentrierte Angriffsstrategien, während Claude-Modelle durch ihre Safety-Mechanismen sowohl geschützt als auch eingeschränkt werden. Für Security-Research bieten kleine Modelle wie Deepseek ein vielversprechendes Preis-Leistungs-Verhältnis.
Link: kasra.blog