Article

WhichLLM: Das richtige lokale Modell für deine Hardware finden

May 15, 2026

Ein neues Open-Source-Tool namens WhichLLM hilft Entwicklern, das optimale lokale LLM für ihre spezifische Hardware-Konfiguration zu finden. Anstatt stundenlang Benchmarks zu vergleichen, gibt das Tool eine Liste passender Modelle basierend auf CPU, GPU, RAM und gewünschten Anwendungen.

Das Problem mit lokalen LLMs

Lokale LLMs sind populär — nicht nur wegen Datenschutz und Kosten, sondern auch wegen der Kontrolle über die eigene Infrastruktur. Doch die Modell-Landschaft ist unübersichtlich. Welches Modell läuft auf einem MacBook mit 16GB RAM? Was braucht eine RTX 4090 im Vergleich zu einer älteren 3060? Und wie schneiden verschiedene Quantisierungen ab?

Die Antwort ist nicht trivial. Modell-Größe, Kontext-Fenster, Quantisierung, Framework-Unterstützung — alle Faktoren interagieren. Ein Modell, das theoretisch in den VRAM passt, kann durch Kontext-Overhead dennoch scheitern. Ein anderes Modell läuft, aber mit unbrauchbarer Geschwindigkeit.

WhichLLM: Systematische Auswahl

Das Tool funktioniert in drei Schritten:

Hardware-Profil eingeben: CPU-Kerne, RAM, GPU mit VRAM, Storage-Typ. Das Tool erkennt auch automatisch via System-Scan.
Anwendungsfälle wählen: Coding-Assistent, Chat, Reasoning, Vision — verschiedene Anwendungsfälle haben verschiedene Anforderungen an Modell-Typ.
Ergebnisse vergleichen: Die Ausgabe listet Modelle mit Benchmark-Scores, geschätzter Geschwindigkeit, Kontext-Kapazität, und konkreten Empfehlungen für die Konfiguration.

Benchmarks im Kontext

WhichLLM zieht Benchmarks aus öffentlich verfügbaren Quellen wie MMLU, HumanEval, GPQA, und anderen Standard-Benchmarks. Das Besondere: es setzt die Ergebnisse in Relation zur Hardware. Ein Modell, das auf einem Cluster glänzt, kann auf Consumer-Hardware unbrauchbar sein. WhichLLM zeigt genau diese Diskrepanz.

Die Tool-Datenbank enthält die gängigen Open-Modelle: Llama-Varianten, Qwen, Mistral, Phi, Granite, DeepSeek, und viele mehr. Für jedes Modell gibt es Informationen zu verfügbaren Quantisierungen, Kontext-Limits, und Framework-Unterstützung (llama.cpp, vLLM, MLX, etc.).

Praktischer Einsatz

whichllm --gpu rtx-4070 --ram 32 --use coding

Die Ausgabe würde beispielsweise zeigen: Ein 8B-Modell wie Llama 3.2 passt komplett im VRAM mit vollem Kontext. Ein 70B-Modell ist mit Quantisierung technisch möglich, aber bei <1 Token/Sekunde kaum brauchbar als Coding-Assistent. Die Empfehlung: mehrere kleinere Modelle für verschiedene Aufgaben oder Upgrade-Optionen.

Fazit

Welches lokale Modell man wählt, sollte keine Bauchentscheidung sein. Mit Hardware-Spezifikationen und Anwendungszweck kann WhichLLM eine systematische, benchmark-gestützte Empfehlung liefern. Das spart Zeit, Geld, und Frust — und senkt die Eintrittsbarriere für lokale KI weiter.

Original bei GitHub