Article

Guenstige VRAM-Upgrades fuer lokale LLM-Entwicklung

May 31, 2026 Tutorial GPU VRAM Local LLM Hardware V100

Kurzfassung

Wie man mit 200 GBP und einem SXM2-Adapter 32GB VRAM erreicht. Ein Praxis-Tutorial fuer Entwickler, die lokal mit groesseren Modellen experimentieren wollen.

Abstract

Fuer lokale LLM-Inferenz ist VRAM der limitierende Faktor. Eine RTX 4080 mit 16GB reicht fuer viele Modelle nicht aus. Die Alternative: Eine gebrauchte Tesla V100 SXM2 aus dem Jahr 2017 kostet 150 GBP auf eBay und bietet 16GB HBM2-Speicher.

Die Voraussetzungen:

Formfaktor verstehen: SXM2-GPUs haben keinen PCIe-Slot. Ein Adapter ist noetig (50 GBP)
Speicherbandbreite: HBM2 bietet 900 GB/s – mehr als moderne Consumer-GPUs
Kuehlung loesen: Der Standardluefter laeuft mit 82dB. PWM-Steuerung erforderlich

Der Hardware-Weg:

V100 SXM2 16GB (150 GBP auf eBay)
SXM2-zu-PCIe-Adapter (50 GBP)
2.54mm male zu PH2.0 female Kabel fuer Lueftersteuerung

Software-Setup:

Mit llama.cpp funktioniert die V100 sofort. Die Kombination aus RTX 4080 (16GB) + V100 (16GB) ergibt 32GB VRAM – genug fuer 27B-Modelle bei 32 Token/Sekunde.

Der entscheidende Punkt: Fuer LLM-Inferenz zaehlt Speicherbandbreite mehr als Rechenleistung. Eine acht Jahre alte Workstation-GPU schlaegt in dieser Metrik aktuelle Consumer-Hardware.

Originalquelle: I Put a Datacenter GPU in My Gaming PC for 200 GBP