Article
Lokale LLMs: Apple Silicon kostet mehr als OpenRouter
William Angel hat eine faszinierende Kostenrechnung angestellt: Was kostet es wirklich, LLMs lokal auf Apple Silicon zu betreiben? Die Ergebnisse überraschen.
Die Stromkosten
Ein M5 MacBook Pro zieht unter Last 50-100 Watt. Bei 0,20$/kWh:
- 50W = 0,009$/Stunde
- 100W = 0,018$/Stunde
Das ist vernachlässigbar. Die eigentlichen Kosten liegen woanders.
Die Hardware-Kosten
Ein 14" MacBook Pro M5 Max mit 64GB RAM kostet 4.299$. Die Frage: Wie lange hält das Gerät?
| Lebensdauer | Kosten/Jahr | Kosten/Stunde |
|---|---|---|
| 3 Jahre | 1.433$ | 0,16$ |
| 5 Jahre | 860$ | 0,10$ |
| 10 Jahre | 430$ | 0,05$ |
Bei intensiver Inferenz-Nutzung ist 3 Jahre realistisch. Die Hardware-Degression dominiert die Kosten.
Token-Ökonomie
Auf dem M5 Max erreicht man mit einem serious Model wie Gemma 4 31B:
- 10-40 Tokens pro Sekunde
- 36.000-144.000 Tokens pro Stunde
Kosten pro Million Tokens: 0,40$ bis 4,79$
Der Vergleich mit OpenRouter
OpenRouter bietet Gemma 4 31B für 0,38-0,50$ pro Million Tokens. Das ist:
- 3x billiger als pessimistischer lokaler Fall
- 2x schneller (60-70 Tokens/Sekunde)
Das Fazit
Für Angestellte, deren Stundensatz 1000x über den Token-Kosten liegt, macht Cloud-API mehr Sinn. Die Latenz ist niedriger, die Kosten kontrollierbar.
Aber: Ein Consumer-Gerät kann Modelle laufen lassen, die fast anthropic-sonnet-Niveau erreichen. Das ist ein gewaltiger Fortschritt.
Die Entscheidung hängt vom Anwendungsfall ab:
- Maximale Geschwindigkeit und minimale Kosten → Cloud
- Datenschutz und Offline-Fähigkeit → Lokal