Article

CyberSecQwen-4B: Spezialisiertes Sicherheitsmodell schlägt Cisco-8B-Baseline

May 09, 2026 llm cybersecurity huggingface

Klein, lokal, leistungsstark

Ein neue 4-Milliarden-Parameter-Modell beweist, dass spezialisierte Fine-Tunes größere Generalisten schlagen können. CyberSecQwen-4B wurde für Cyber-Threat-Intelligence-Aufgaben trainiert und erreicht auf CTI-Bench +8.7 Punkte über Ciscos Foundation-Sec-Instruct-8B, bei halber Parameterzahl.

Warum lokale Modelle für Defensive Security wichtig sind

Frontier-Modelle sind teuer in der API-Nutzung, senden jeden Prompt an fremde Rechenzentren und weigern sich oft, die unangenehmen Edge-Cases zu bearbeiten, mit denen echte Verteidiger leben. Für Defensive Cybersecurity ist keiner dieser Tradeoffs akzeptabel:

Sensible Beweise bleiben intern. SOC-Analysten, Malware-Reverse-Engineers und Vulnerability-Researcher sollten ihre Daten nicht in eine gehostete API pasten.
API-Kosten akkumulieren sich. Eine mittelgroße SOC verarbeitet tausende Alerts täglich.
Air-gapped Umgebungen sind die Regel, nicht die Ausnahme.
Angreifer automatisieren bereits. Ransomware-Gangs nutzen LLMs für Phishing in 30 Sprachen.

Die Benchmarks

Metrik	CyberSecQwen-4B	Foundation-Sec-8B	Differenz
CTI-MCQ (2.500 Items)	0.5868	0.4996	+8.7 pp
CTI-RCM (CVE→CWE)	0.6664	0.6850	-1.9 pp

Das Modell behält 97,3% der CTI-RCM-Genauigkeit bei halber Größe und funktioniert auf einer einzelnen 12GB Consumer-GPU.

Training auf AMD MI300X

Der gesamte Pipeline lief auf einer einzigen AMD Instinct MI300X 192GB Instanz. Die 192GB HBM3 in Kombination mit ROCm 7’s vLLM-Stack ermöglichten Full bf16, FlashAttention-2, Batch-Size 4, Sequenzlänge 4096 ohne Quantisierungstricks.

Link: Original bei Hugging Face