Article

Qwen 3.5 auf dem Macbook: Lokale KI mit 24GB RAM

ki llm lokal ollama

Das RAM-Problem lokal gelöst

Wer lokale Sprachmodelle auf einem 24GB M4 Macbook Pro betreiben will, steht vor einem Dilemma: Die besten Modelle passen kaum in den Speicher, und bei kleineren Modellen leidet die Qualität. Ein Erfahrungsbericht zeigt, wie Qwen 3.5-9B mit 4-Bit-Quantisierung den Sweet Spot trifft.

Die funktionierende Konfiguration

Mit Qwen 3.5-9B bei Q4_K_S-Quantisierung erreicht man etwa 40 Token pro Sekunde, funktionierendes Tool-Use und ein 128K Kontextfenster. Die entscheidenden Einstellungen: temperature=0.6, top_p=0.95, top_k=20 für Coding-Aufgaben mit aktiviertem Thinking-Modus.

Werkzeug-Integration

Die Einbindung funktioniert sowohl über Pi als auch OpenCode. Bei beiden Clients ist die Konfiguration minimal: LM Studio als lokaler Provider unter localhost:1234, und das Modell ist einsatzbereit. Die Qualität reicht nicht an Claude oder GPT-4 heran, aber für interaktive Coding-Sessions völlig ausreichend.

Link: Original bei jola.dev