Article
Lokale LLMs auf einem Zehn-Stunden-Flug: Ein Feldversuch
Ein Entwickler nutzte einen zehnstündigen Flug von London nach Las Vegas für einen Praxistest lokaler LLMs. Ohne Internetverbindung testete er, wie weit sich ernsthafte Engineering-Arbeit komplett offline erledigen lässt.
Das Setup war ambitioniert: Ein MacBook Pro M5 Max mit 128 Gigabyte Unified Memory und 40-Core GPU. Als Modelle dienten Gemma 4 31B und Qwen 4.6 36B über LM Studio. Die lokale Umgebung enthielt die 100 wichtigsten Docker-Images, alle gängigen Programmiersprachen und diverse CLIs.
Das Ergebnis: Ein vollständiges Billing-Analyse-Tool für Cloud-Kosten sowie etwa 4 Millionen Tokens an kleineren Aufgaben wie Refactorings, CLI-Scaffolding und Dokumentation. Für eng begrenzte Aufgaben lieferten die lokalen Modelle Ergebnisse, die mit Cloud-Diensten vergleichbar waren.
Drei Limits traten auf: Power – etwa ein Prozent Batterie pro Minute unter Last, mit Entladung trotz 60 Watt Stromversorgung. Heat – das Gehäuse wurde so heiß, dass Decke und Kissen die Knie schützten. Context – die Performance verschlechterte sich merklich jenseits von 100k Tokens.
Der wichtigste Takeaway: Lokale Inferenz ist für eine sinnvolle Teilmenge von Engineering-Arbeiten praktikabel. Eng begrenztes Coding, explorative Tools und Aufgaben, die den Kosten-Nutzen-Test bei Cloud-Inferenz nicht bestehen, lassen sich offline erledigen. Große Kontexte und komplexe Agenten-Workloads bleiben jedoch in der Cloud besser aufgehoben.
Quelle: Dmitri Lerko Blog