Article
32GB VRAM fuer 200 GBP: Datacenter-GPU im Gaming-PC
Kurzfassung
Ein 150 GBP Datacenter-GPU plus 50 GBP Adapter ergeben 32GB VRAM fuer lokale LLM-Inferenz. Ein detaillierter Hardware-Blog ueber V100 SXM2, HBM2-Speicherbandbreite und Luefter-Tuning.
Abstract
Oscar Molnar brauchte mehr VRAM fuer lokale LLM-Modelle. Sein RTX 4080 mit 16GB reichte nicht aus. Statt eine neue GPU zu kaufen, fand er einen unkonventionellen Weg: eine Tesla V100 SXM2 aus dem Jahr 2017 fuer 150 GBP auf eBay.
Das Problem: Die SXM2-Formfaktor hat keinen PCIe-Slot. Die Loesung: Ein inoffizieller SXM2-zu-PCIe-Adapter fuer 50 GBP. Das Resultat: 32GB VRAM gesamt, genug fuer 27B-Modelle bei 32 Token/Sekunde.
Die technischen Details sind faszinierend. Die V100 nutzt HBM2-Speicher mit 900 GB/s Bandbreite – 22% mehr als eine RTX 4080. Fuer LLM-Inferenz ist Speicherbandbreite der limitierende Faktor, nicht Rechenleistung. Eine GPU aus dem Jahr 2017 schlaegt alle Macs auf dem Markt.
Der groesste Stolperstein war der Luefter. Mit 82dB war er unhaltbar laut. Die Loesung: Ein PWM-kompatibles Kabel zur Motherboard-Lueftersteuerung. Jetzt laeuft die GPU bei 10% Luefterdrehzahl und bleibt unter 50C.
Fuer Entwickler, die lokal experimentieren wollen, ohne 2000 GBP fuer eine RTX 5090 auszugeben, ist das ein lesenswerter Praxisbericht.
Originalquelle: I Put a Datacenter GPU in My Gaming PC for 200 GBP