Article
EAGLE 3.1 - Robusteres Speculative Decoding für vLLM
Ein gemeinsames Release der EAGLE-, vLLM- und TorchSpec-Teams bringt EAGLE 3.1 als bedeutendes Update für speculative Decoding-Algorithmen. Die neue Version adressiert ein Kernproblem: Instabilität bei wechselnden Chat-Templates und langen Kontexten.
Was ist Speculative Decoding?
Speculative Decoding nutzt ein kleineres Draft-Modell, das mehrere Tokens gleichzeitig vorhersagt. Das Hauptmodell verifiziert diese Vorhersagen in einem einzigen Forward-Pass. Akzeptierte Tokens werden behalten, bei Ablehnung wird ab dem Fehlerpunkt neu generiert. Das Ergebnis: Bis zu 2x höhere Throughput ohne Qualitätsverlust.
Das Problem mit EAGLE 3
EAGLE 3 funktionierte gut in kontrollierten Umgebungen, zeigte aber Performance-Einbrüche bei:
- Unerwarteten Chat-Templates
- Langen Kontext-Eingaben
- Out-of-Distribution System-Prompts
Das EAGLE-Team identifizierte Attention Drift als Ursache: Mit zunehmender Speculation-Tiefe wandert die Attention der Draft-Modelle von den Sink-Tokens zu den eigenen generierten Tokens.
Die EAGLE 3.1 Verbesserungen
Zwei architektonische Änderungen beheben das Problem:
- FC-Normalisierung: Nach jedem Target-Hidden-State wird eine Normalisierung vor dem FC-Layer angewendet
- Post-Norm Hidden States: Die post-normalisierten Hidden States werden in den nächsten Decoding-Step eingespeist
Intuitiv verhält sich EAGLE 3.1 eher wie ein rekursiver Aufruf des Drafters statt wie eine einfache Erweiterung von Layern.
Performance-Gains
EAGLE 3.1 zeigt signifikante Verbesserungen:
- Bessere Training-zu-Inference-Extrapolation
- Robustere Long-Context-Performance
- Höhere Resilienz bei Template- und Prompt-Variation
- Bis zu 2x längere Acceptance-Length in Long-Context-Workloads
Benchmark auf Kimi-K2.6-NVFP4 mit vLLM (TP=4, GB200): 2.03x höhere Per-User-Output-Throughput bei Concurrency 1. Bei höherer Last bleibt der Vorteil erhalten: 1.71x bei C=4, 1.66x bei C=16.
Integration in vLLM
EAGLE 3.1 ist als config-gesteuerte Erweiterung der existierenden EAGLE 3-Implementierung in vLLM integriert. Bestehende EAGLE 3-Checkpoints sind voll kompatibel. Available im vLLM main branch und in v0.22.0.