Article

KVarN: Native vLLM KV-Cache Quantisierung mit 3-5x mehr Kontext

vLLM LLM-Inferenz Quantisierung Huawei KV-Cache

Huawei veröffentlicht KVarN, einen nativen KV-Cache-Quantisierungs-Backend für vLLM, der 3-5x mehr KV-Cache-Kapazität bietet – bei FP16-Genauigkeit und sogar höherem Durchsatz als Full-Precision.

Das Problem

KV-Cache-Quantisierung ist ein Kompromiss. Bestehende Methoden wie TurboQuant gewinnen zwar Kapazität (2.3-3.7x), verlieren aber 40-52% Durchsatz und opfern Genauigkeit bei aggressiven Low-Bit-Raten. Für Produktionseinsätze unbrauchbar.

KVarNs Lösung

Die varianz-normalisierte Quantisierung nutzt eine vierschrittige Pipeline pro Tile:

  1. Cache: Raw fp16 KV-Tile aus Attention
  2. Rotated Cache: Hadamard-Rotation verteilt Outlier kanalübergreifend
  3. Normalized Cache: Iterative Varianz-Normalisierung (Sinkhorn-artig) gleicht Varianz aus
  4. Quantized Cache: Asymmetrisches Round-to-Nearest mit 4-bit Keys, 2-bit Values

Das Resultat: Oberes rechtes Viertel der Pareto-Front, wo andere Methoden nicht hinkommen – FP16-Genauigkeit und FP16-Durchsatz und mehrfacher Kontext.

Integration

Kalibrierungsfrei und Plug-and-Play innerhalb vLLM:

vllm serve Qwen/Qwen3-32B \
  --dtype float16 \
  --kv-cache-dtype kvarn_k4v2_g128 \
  --block-size 128

KVarN läuft in float16-Compute, die Tile-Größe ist aktuell auf 128 fixiert. Der Fork basiert auf vLLM v0.22.0 und nutzt JIT-kompilierte Triton-Kernel.

Benchmarks

Auf Qwen3-32B (AIME25, 16K-Context Burst, TP=2):

  • ~4x KV-Cache-Kapazität vs FP16
  • ~1.3x Durchsatz vs FP16
  • FP16-Level-Genauigkeit (matched)
  • ~2.4x TurboQuant-Durchsatz bei gleicher Kapazität, höherer Genauigkeit

Der Name “KVarN” ist schwedisch für “Mühle” – ein Apparat, der Substanzen in kleinere Partikel mahlt. Passend für KV-Caches.

Paper: arXiv:2606.03458 | GitHub: huawei-csl/KVarN