Article

Rotary GPU: Lokale Ausfuehrung grosser MoE-Modelle

ki moe gpu

Rotary GPU ist ein innovativer Ansatz zur lokalen Ausführung großer Mixture-of-Experts (MoE) Modelle unter begrenzten GPU-Ressourcen. Die Forschung stellt nicht die Skalierung von Sprachmodellen in Frage, sondern widmet sich einer praktischen Herausforderung: Wie können existierende große Modelle für Nutzer zugänglich werden, die keine Rechenzentrums-Infrastruktur besitzen?

Das Paper präsentiert Rotary GPU, einen explorativen Ausführungsansatz, der auf einem rotierenden Beschleuniger-Residenz-Konzept basiert. Zur Validierung wurde ein Qwen3.6-35B-A3B MoE-Modell auf einem Consumer-Laptop mit einer RTX 4060 Laptop GPU (8 GB VRAM) ausgeführt. Unter der primären Konfiguration generierte das System 2048 Output-Token bei lediglich 6,3 GB VRAM-Nutzung und erreichte eine Decode-Throughput-Rate von 21,06 Token pro Sekunde.

Die Ergebnisse demonstrieren, dass bestimmte Fähigkeiten großer Modelle in Umgebungen ohne dedizierte Infrastruktur verfügbar gemacht werden können. Dies ist besonders relevant für Organisationen mit Hardware-, Budget- oder Sicherheitsbeschränkungen. Die Arbeit ist als explorativ zu verstehen und regt weitere Untersuchungen zur Deployment-Zugänglichkeit bei fortschreitender Modelvolution an.

Link zum Original: arXiv:2605.29135