Article

Granite 4.1: IBMs Antwort auf effiziente LLMs

model AI LLM

IBM hat mit Granite 4.1 eine Familie von Sprachmodellen veröffentlicht, die beweist, dass Qualität nicht zwingend massive Parameterzahlen erfordert. Die Modelle kommen in drei Größen: 3B, 8B und 30B Parameter, alle als reine Dense-Architekturen ohne Mixture-of-Experts. Die 8B-Instruct-Variante erreicht oder übertrifft dabei die Leistung des deutlich größeren Granite 4.0-H-Small (32B), was die Effizienz der neuen Architektur unterstreicht.

Training-Technisch setzt IBM auf einen mehrstufigen Pre-Training-Prozess über fünf Phasen mit insgesamt 15 Billionen Token. Die Datenqualität steht über der Quantität – jedes Tokensegment wird kuratiert. Grouped Query Attention (GQA) reduziert den Speicherbedarf bei Inferenz, während RoPE-Positionsembeddings ein Kontextfenster von bis zu 512.000 Token ermöglichen. SwiGLU-Aktivierungen und RMSNorm vervollständigen die moderne Architektur.

Nach dem Pre-Training folgt Supervised Fine-Tuning mit 4,1 Millionen hochwertigen Beispielen, die durch ein LLM-as-Judge-Framework kuratiert wurden. Reinforcement Learning via GRPO mit DAPO-Verlust rundet das Training ab und stärkt Mathematik-, Coding- und Instruktion-following-Fähigkeiten. Alle Modelle stehen unter Apache-2.0-Lizenz auf Hugging Face bereit und dokumentieren den gesamten Trainingsprozess transparent – ein willkommener Kontrast zu den geschlossenen “Black-Box”-Modellen der Konkurrenz.