Article
Guenstige VRAM-Upgrades fuer lokale LLM-Entwicklung
Kurzfassung
Wie man mit 200 GBP und einem SXM2-Adapter 32GB VRAM erreicht. Ein Praxis-Tutorial fuer Entwickler, die lokal mit groesseren Modellen experimentieren wollen.
Abstract
Fuer lokale LLM-Inferenz ist VRAM der limitierende Faktor. Eine RTX 4080 mit 16GB reicht fuer viele Modelle nicht aus. Die Alternative: Eine gebrauchte Tesla V100 SXM2 aus dem Jahr 2017 kostet 150 GBP auf eBay und bietet 16GB HBM2-Speicher.
Die Voraussetzungen:
- Formfaktor verstehen: SXM2-GPUs haben keinen PCIe-Slot. Ein Adapter ist noetig (50 GBP)
- Speicherbandbreite: HBM2 bietet 900 GB/s – mehr als moderne Consumer-GPUs
- Kuehlung loesen: Der Standardluefter laeuft mit 82dB. PWM-Steuerung erforderlich
Der Hardware-Weg:
- V100 SXM2 16GB (150 GBP auf eBay)
- SXM2-zu-PCIe-Adapter (50 GBP)
- 2.54mm male zu PH2.0 female Kabel fuer Lueftersteuerung
Software-Setup:
Mit llama.cpp funktioniert die V100 sofort. Die Kombination aus RTX 4080 (16GB) + V100 (16GB) ergibt 32GB VRAM – genug fuer 27B-Modelle bei 32 Token/Sekunde.
Der entscheidende Punkt: Fuer LLM-Inferenz zaehlt Speicherbandbreite mehr als Rechenleistung. Eine acht Jahre alte Workstation-GPU schlaegt in dieser Metrik aktuelle Consumer-Hardware.
Originalquelle: I Put a Datacenter GPU in My Gaming PC for 200 GBP