Article

Lokale LLMs: Apple Silicon kostet mehr als OpenRouter

May 17, 2026

William Angel hat eine faszinierende Kostenrechnung angestellt: Was kostet es wirklich, LLMs lokal auf Apple Silicon zu betreiben? Die Ergebnisse überraschen.

Die Stromkosten

Ein M5 MacBook Pro zieht unter Last 50-100 Watt. Bei 0,20$/kWh:

50W = 0,009$/Stunde
100W = 0,018$/Stunde

Das ist vernachlässigbar. Die eigentlichen Kosten liegen woanders.

Die Hardware-Kosten

Ein 14" MacBook Pro M5 Max mit 64GB RAM kostet 4.299$. Die Frage: Wie lange hält das Gerät?

Lebensdauer	Kosten/Jahr	Kosten/Stunde
3 Jahre	1.433$	0,16$
5 Jahre	860$	0,10$
10 Jahre	430$	0,05$

Bei intensiver Inferenz-Nutzung ist 3 Jahre realistisch. Die Hardware-Degression dominiert die Kosten.

Token-Ökonomie

Auf dem M5 Max erreicht man mit einem serious Model wie Gemma 4 31B:

10-40 Tokens pro Sekunde
36.000-144.000 Tokens pro Stunde

Kosten pro Million Tokens: 0,40$ bis 4,79$

Der Vergleich mit OpenRouter

OpenRouter bietet Gemma 4 31B für 0,38-0,50$ pro Million Tokens. Das ist:

3x billiger als pessimistischer lokaler Fall
2x schneller (60-70 Tokens/Sekunde)

Das Fazit

Für Angestellte, deren Stundensatz 1000x über den Token-Kosten liegt, macht Cloud-API mehr Sinn. Die Latenz ist niedriger, die Kosten kontrollierbar.

Aber: Ein Consumer-Gerät kann Modelle laufen lassen, die fast anthropic-sonnet-Niveau erreichen. Das ist ein gewaltiger Fortschritt.

Die Entscheidung hängt vom Anwendungsfall ab:

Maximale Geschwindigkeit und minimale Kosten → Cloud
Datenschutz und Offline-Fähigkeit → Lokal

Link: William Angel: Offline Agentic Coding part 3