Article

LLMs als Hacker: 1500 Dollar Experiment zeigt überraschende Ergebnisse

Ein Security-Forscher verbrachte 1500 Dollar um zu testen, ob moderne LLMs eine verwundbare App hacken können. Die Ergebnisse sind bemerkenswert: GPT-5.5 löste die Herausforderung in 7 von 10 Versuchen, während Claude-Modelle häufiger an Sicherheitsbarrieren scheiterten.

Das Experiment

Kasra Rahjerdi baute eine absichtlich verwundbare React Native App mit Python-Backend. Die Aufgabe: Finde eine Flagge in privaten Benutzer-Reviews. Die LLMs erhielten kein Vorwissen über die Sicherheitslücken und mussten selbstständig vorgehen.

Die Testbedingungen:

  • Maximal 10 Dollar und 2 Stunden pro Lauf
  • Gleiche Temperatur (0.7) für alle Modelle
  • High-Thinking-Modus aktiviert

Die Ergebnisse

ModellErfolgsrateKosten/RunKosten/Solve
GPT-5.57/10 (70%)6.62 Dollar9.46 Dollar
Deepseek-v4-pro3/10 (30%)0.19 Dollar0.62 Dollar
Claude-sonnet-4.62/10 (20%)9.15 Dollar45.75 Dollar
Claude-opus-4.82/10 (20%)3.23 Dollar16.15 Dollar

Beobachtungen

GPT-5.5 fokussierte sich konsequent auf Firebase nach dem Entpacken des APK und verschwendete keine Zeit mit API-Analysen. Diese direkte Herangehensweise führte zur höchsten Erfolgsrate.

Deepseek-v4-pro erkannte in der Hälfte der Läufe das Firebase-Potenzial, aber einige Versuche gingen in falsche Richtungen. Mit 0.19 Dollar pro Run war es jedoch das kosteneffizienteste Modell.

Claude-Modelle zeigten gemischte Ergebnisse. Sonnet erkannte den richtigen Pfaltz, erreichte jedoch aufgrund des Budget-Limits oft keine Lösung. Opus kam oft nah heran, wurde aber durch Sicherheits-Guardrails gestoppt - nicht sofort, sondern spät im Prozess.

Gemini und andere Modelle wie Gemini 3.1 Pro und Minimax erzielten 0/10 Erfolge. Sie generierten Berichte wie “Exploit konnte nicht gefunden werden, API erscheint sicher”, obwohl eine Firebase-Schwachstelle existierte.

Das Fazit

LLMs können echte Sicherheitslücken finden, aber die Ergebnisse variieren drastisch. GPT-5.5 überzeugt durch konzentrierte Angriffsstrategien, während Claude-Modelle durch ihre Safety-Mechanismen sowohl geschützt als auch eingeschränkt werden. Für Security-Research bieten kleine Modelle wie Deepseek ein vielversprechendes Preis-Leistungs-Verhältnis.

Link: kasra.blog