Article
KVarN: Native vLLM KV-Cache Quantisierung mit 3-5x mehr Kontext
Huawei veröffentlicht KVarN, einen nativen KV-Cache-Quantisierungs-Backend für vLLM, der 3-5x mehr KV-Cache-Kapazität bietet – bei FP16-Genauigkeit und sogar höherem Durchsatz als Full-Precision.
Das Problem
KV-Cache-Quantisierung ist ein Kompromiss. Bestehende Methoden wie TurboQuant gewinnen zwar Kapazität (2.3-3.7x), verlieren aber 40-52% Durchsatz und opfern Genauigkeit bei aggressiven Low-Bit-Raten. Für Produktionseinsätze unbrauchbar.
KVarNs Lösung
Die varianz-normalisierte Quantisierung nutzt eine vierschrittige Pipeline pro Tile:
- Cache: Raw fp16 KV-Tile aus Attention
- Rotated Cache: Hadamard-Rotation verteilt Outlier kanalübergreifend
- Normalized Cache: Iterative Varianz-Normalisierung (Sinkhorn-artig) gleicht Varianz aus
- Quantized Cache: Asymmetrisches Round-to-Nearest mit 4-bit Keys, 2-bit Values
Das Resultat: Oberes rechtes Viertel der Pareto-Front, wo andere Methoden nicht hinkommen – FP16-Genauigkeit und FP16-Durchsatz und mehrfacher Kontext.
Integration
Kalibrierungsfrei und Plug-and-Play innerhalb vLLM:
vllm serve Qwen/Qwen3-32B \
--dtype float16 \
--kv-cache-dtype kvarn_k4v2_g128 \
--block-size 128
KVarN läuft in float16-Compute, die Tile-Größe ist aktuell auf 128 fixiert. Der Fork basiert auf vLLM v0.22.0 und nutzt JIT-kompilierte Triton-Kernel.
Benchmarks
Auf Qwen3-32B (AIME25, 16K-Context Burst, TP=2):
- ~4x KV-Cache-Kapazität vs FP16
- ~1.3x Durchsatz vs FP16
- FP16-Level-Genauigkeit (matched)
- ~2.4x TurboQuant-Durchsatz bei gleicher Kapazität, höherer Genauigkeit
Der Name “KVarN” ist schwedisch für “Mühle” – ein Apparat, der Substanzen in kleinere Partikel mahlt. Passend für KV-Caches.