Article

Mixture-of-Experts mit emergenter Modularität: Allen AI veröffentlicht EMO

AI-Modelle MoE AllenAI LLM-Training

Emergente Expert-Spezialisierung ohne menschliche Labels

Allen AI veröffentlicht EMO (Emergent Mixture of Experts), ein neues MoE-Modell, das modular Struktur direkt aus den Daten lernt – ohne vordefinierte semantische Domains wie “Math”, “Code” oder “Biologie”. Trainiert auf 1 Billion Token mit 1B aktiven und 14B totalen Parametern (8-Expert-aktiv, 128-Expert-total).

Der Clou: Für einen gegebenen Task oder Domain können Nutzer nur einen kleinen Subset der Experten nutzen (12.5% der Experten) und behalten fast die volle Modell-Performance. Gleichzeitig bleibt EMO ein starkes General-Purpose-Modell, wenn alle Experten zusammen verwendet werden.

Das Problem mit Standard-MoEs

Existierende MoE-Modelle aktivieren zwar nur einen kleinen Subset der Experten pro Token, benötigen aber trotzdem das volle Modell, um gut zu funktionieren. Warum? Weil Tokens innerhalb eines Inputs oft verschiedene Experten aktivieren – ein Task landet so bei allen Experten.

Schlimmer noch: Experten in Standard-MoEs spezialisieren sich oft auf low-level lexikalische Patterns wie Präpositionen oder Interpunktion, statt auf higher-level Domains oder Capabilities.

Wie EMO Modularität erzeugt

Die Schlüssel-Beobachtung: Tokens aus demselben Dokument kommen normalerweise aus derselben Domain. EMO nutzt Dokument-Grenzen als schwache Supervisory-Signale – während des Trainings wählen alle Tokens in einem Dokument ihre aktiven Experten aus einem gemeinsamen Expert-Pool.

Das Resultat: Experten organisieren sich in kohärente Gruppen, die selektiv genutzt und kombiniert werden können. Das Papier zeigt, dass ein Standard-MoE mit gleicher Architektur und denselben Daten schwere Degradation erleidet, wenn Expert-Subsets selektiv genutzt werden – EMO nicht.

Die Visualisierung zeigt klar getrennte Expert-Cluster für Math, Code, Biomedizin und andere Domains.

Link: HuggingFace Blog: EMO