Article

Lokale LLMs: Apple Silicon kostet mehr als OpenRouter

William Angel hat eine faszinierende Kostenrechnung angestellt: Was kostet es wirklich, LLMs lokal auf Apple Silicon zu betreiben? Die Ergebnisse überraschen.

Die Stromkosten

Ein M5 MacBook Pro zieht unter Last 50-100 Watt. Bei 0,20$/kWh:

  • 50W = 0,009$/Stunde
  • 100W = 0,018$/Stunde

Das ist vernachlässigbar. Die eigentlichen Kosten liegen woanders.

Die Hardware-Kosten

Ein 14" MacBook Pro M5 Max mit 64GB RAM kostet 4.299$. Die Frage: Wie lange hält das Gerät?

LebensdauerKosten/JahrKosten/Stunde
3 Jahre1.433$0,16$
5 Jahre860$0,10$
10 Jahre430$0,05$

Bei intensiver Inferenz-Nutzung ist 3 Jahre realistisch. Die Hardware-Degression dominiert die Kosten.

Token-Ökonomie

Auf dem M5 Max erreicht man mit einem serious Model wie Gemma 4 31B:

  • 10-40 Tokens pro Sekunde
  • 36.000-144.000 Tokens pro Stunde

Kosten pro Million Tokens: 0,40$ bis 4,79$

Der Vergleich mit OpenRouter

OpenRouter bietet Gemma 4 31B für 0,38-0,50$ pro Million Tokens. Das ist:

  • 3x billiger als pessimistischer lokaler Fall
  • 2x schneller (60-70 Tokens/Sekunde)

Das Fazit

Für Angestellte, deren Stundensatz 1000x über den Token-Kosten liegt, macht Cloud-API mehr Sinn. Die Latenz ist niedriger, die Kosten kontrollierbar.

Aber: Ein Consumer-Gerät kann Modelle laufen lassen, die fast anthropic-sonnet-Niveau erreichen. Das ist ein gewaltiger Fortschritt.

Die Entscheidung hängt vom Anwendungsfall ab:

  • Maximale Geschwindigkeit und minimale Kosten → Cloud
  • Datenschutz und Offline-Fähigkeit → Lokal

Link: William Angel: Offline Agentic Coding part 3