Article

EAGLE 3.1 - Robusteres Speculative Decoding für vLLM

Ein gemeinsames Release der EAGLE-, vLLM- und TorchSpec-Teams bringt EAGLE 3.1 als bedeutendes Update für speculative Decoding-Algorithmen. Die neue Version adressiert ein Kernproblem: Instabilität bei wechselnden Chat-Templates und langen Kontexten.

Was ist Speculative Decoding?

Speculative Decoding nutzt ein kleineres Draft-Modell, das mehrere Tokens gleichzeitig vorhersagt. Das Hauptmodell verifiziert diese Vorhersagen in einem einzigen Forward-Pass. Akzeptierte Tokens werden behalten, bei Ablehnung wird ab dem Fehlerpunkt neu generiert. Das Ergebnis: Bis zu 2x höhere Throughput ohne Qualitätsverlust.

Das Problem mit EAGLE 3

EAGLE 3 funktionierte gut in kontrollierten Umgebungen, zeigte aber Performance-Einbrüche bei:

  • Unerwarteten Chat-Templates
  • Langen Kontext-Eingaben
  • Out-of-Distribution System-Prompts

Das EAGLE-Team identifizierte Attention Drift als Ursache: Mit zunehmender Speculation-Tiefe wandert die Attention der Draft-Modelle von den Sink-Tokens zu den eigenen generierten Tokens.

Die EAGLE 3.1 Verbesserungen

Zwei architektonische Änderungen beheben das Problem:

  1. FC-Normalisierung: Nach jedem Target-Hidden-State wird eine Normalisierung vor dem FC-Layer angewendet
  2. Post-Norm Hidden States: Die post-normalisierten Hidden States werden in den nächsten Decoding-Step eingespeist

Intuitiv verhält sich EAGLE 3.1 eher wie ein rekursiver Aufruf des Drafters statt wie eine einfache Erweiterung von Layern.

Performance-Gains

EAGLE 3.1 zeigt signifikante Verbesserungen:

  • Bessere Training-zu-Inference-Extrapolation
  • Robustere Long-Context-Performance
  • Höhere Resilienz bei Template- und Prompt-Variation
  • Bis zu 2x längere Acceptance-Length in Long-Context-Workloads

Benchmark auf Kimi-K2.6-NVFP4 mit vLLM (TP=4, GB200): 2.03x höhere Per-User-Output-Throughput bei Concurrency 1. Bei höherer Last bleibt der Vorteil erhalten: 1.71x bei C=4, 1.66x bei C=16.

Integration in vLLM

EAGLE 3.1 ist als config-gesteuerte Erweiterung der existierenden EAGLE 3-Implementierung in vLLM integriert. Bestehende EAGLE 3-Checkpoints sind voll kompatibel. Available im vLLM main branch und in v0.22.0.

Original-Quelle

vLLM Blog: EAGLE 3.1