Article

EMO: Mixtur-of-Experts mit emergenter Modularität von Allen AI

May 09, 2026 llm mixture-of-experts ai2 architektur

Experten, die sich selbst organisieren

Allen AI hat EMO veröffentlicht, ein Mixture-of-Experts-Modell, dessen modulare Struktur direkt aus den Trainingsdaten entsteht, ohne menschlich definierte Prioritäten. EMO ermöglicht es, einen kleinen Teil seiner Experten für eine bestimmte Aufgabe zu nutzen, während die volle Modellleistung beibehalten wird.

Das Problem mit klassischen MoEs

MoE-Modelle enthalten viele kleinere Netzwerke, sogenannte Experten, und aktivieren nur einen kleinen Teil für jeden Input-Token. In der Praxis benötigen bestehende MoEs jedoch immer noch das vollständige Modell. Experten spezialisieren sich oft auf niedrig-level lexikalische Muster wie Präpositionen oder Satzzeichen, statt auf höhere Domänen oder Fähigkeiten.

Die Lösung: Dokument-Level Routing

Der Schlüssel zu EMO: Tokens aus demselben Dokument stammen normalerweise aus derselben Domäne. Das Training beschränkt alle Tokens in einem Dokument darauf, ihre aktiven Experten aus einem gemeinsamen Pool zu wählen. Diese schwache Signalisierung fördert die Entstehung kohärenter Expertengruppen.

Die Ergebnisse

EMO ist ein 1B-aktives, 14B-gesamtes-Parameter Modell (8-Eperten aktiv, 128-Experten total), trainiert auf 1 Billion Tokens:

Selektive Expertennutzung: Nur 12,5% der Experten werden für eine Aufgabe benötigt
Nahezu volle Leistungsbereitung bei selektiver Nutzung
Starkes General-Purpose-Modell wenn alle Experten kombiniert werden

Ein Standard-MoE gleicher Architektur zeigt bei selektiver Expertennutzung starke Leistungseinbußen, EMO hingegen behält seine Performance.

Warum das wichtig ist

Diese Architektur ermöglicht flexible Deployment-Szenarien mit verbesserten Memory-Accuracy-Tradeoffs für große, sparse MoEs. Anstatt ein monolithisches Modell zu laden, können Entwickler nur die relevanten Experten für ihre spezifische Domäne aktivieren.

Link: Original bei Hugging Face