Article
Granite 4.1: IBMs Antwort auf effiziente LLMs
IBM hat mit Granite 4.1 eine Familie von Sprachmodellen veröffentlicht, die beweist, dass Qualität nicht zwingend massive Parameterzahlen erfordert. Die Modelle kommen in drei Größen: 3B, 8B und 30B Parameter, alle als reine Dense-Architekturen ohne Mixture-of-Experts. Die 8B-Instruct-Variante erreicht oder übertrifft dabei die Leistung des deutlich größeren Granite 4.0-H-Small (32B), was die Effizienz der neuen Architektur unterstreicht.
Training-Technisch setzt IBM auf einen mehrstufigen Pre-Training-Prozess über fünf Phasen mit insgesamt 15 Billionen Token. Die Datenqualität steht über der Quantität – jedes Tokensegment wird kuratiert. Grouped Query Attention (GQA) reduziert den Speicherbedarf bei Inferenz, während RoPE-Positionsembeddings ein Kontextfenster von bis zu 512.000 Token ermöglichen. SwiGLU-Aktivierungen und RMSNorm vervollständigen die moderne Architektur.
Nach dem Pre-Training folgt Supervised Fine-Tuning mit 4,1 Millionen hochwertigen Beispielen, die durch ein LLM-as-Judge-Framework kuratiert wurden. Reinforcement Learning via GRPO mit DAPO-Verlust rundet das Training ab und stärkt Mathematik-, Coding- und Instruktion-following-Fähigkeiten. Alle Modelle stehen unter Apache-2.0-Lizenz auf Hugging Face bereit und dokumentieren den gesamten Trainingsprozess transparent – ein willkommener Kontrast zu den geschlossenen “Black-Box”-Modellen der Konkurrenz.