Article

CyberSecQwen-4B: Spezialisiertes Sicherheitsmodell schlägt Cisco-8B-Baseline

llm cybersecurity huggingface

Klein, lokal, leistungsstark

Ein neue 4-Milliarden-Parameter-Modell beweist, dass spezialisierte Fine-Tunes größere Generalisten schlagen können. CyberSecQwen-4B wurde für Cyber-Threat-Intelligence-Aufgaben trainiert und erreicht auf CTI-Bench +8.7 Punkte über Ciscos Foundation-Sec-Instruct-8B, bei halber Parameterzahl.

Warum lokale Modelle für Defensive Security wichtig sind

Frontier-Modelle sind teuer in der API-Nutzung, senden jeden Prompt an fremde Rechenzentren und weigern sich oft, die unangenehmen Edge-Cases zu bearbeiten, mit denen echte Verteidiger leben. Für Defensive Cybersecurity ist keiner dieser Tradeoffs akzeptabel:

  • Sensible Beweise bleiben intern. SOC-Analysten, Malware-Reverse-Engineers und Vulnerability-Researcher sollten ihre Daten nicht in eine gehostete API pasten.
  • API-Kosten akkumulieren sich. Eine mittelgroße SOC verarbeitet tausende Alerts täglich.
  • Air-gapped Umgebungen sind die Regel, nicht die Ausnahme.
  • Angreifer automatisieren bereits. Ransomware-Gangs nutzen LLMs für Phishing in 30 Sprachen.

Die Benchmarks

MetrikCyberSecQwen-4BFoundation-Sec-8BDifferenz
CTI-MCQ (2.500 Items)0.58680.4996+8.7 pp
CTI-RCM (CVE→CWE)0.66640.6850-1.9 pp

Das Modell behält 97,3% der CTI-RCM-Genauigkeit bei halber Größe und funktioniert auf einer einzelnen 12GB Consumer-GPU.

Training auf AMD MI300X

Der gesamte Pipeline lief auf einer einzigen AMD Instinct MI300X 192GB Instanz. Die 192GB HBM3 in Kombination mit ROCm 7’s vLLM-Stack ermöglichten Full bf16, FlashAttention-2, Batch-Size 4, Sequenzlänge 4096 ohne Quantisierungstricks.

Link: Original bei Hugging Face