Article
Granite 4.1: IBMs Enterprise-LLMs mit 512K Kontext
IBM veröffentlicht Granite 4.1: Dense Decoder-LLMs in 3B, 8B und 30B mit Apache-2.0-Lizenz und beeindruckenden Benchmarks.
Kurzbeschreibung
Die neue Granite-Familie nutzt ein fünfstufiges Pretraining mit qualitätsorientiertem Data-Annealing. Das 8B-Modell schlägt das vorherige Granite 4.0-H-Small (32B MoE) trotz wenigerer Parameter – ein Triumph von Datenqualität über Skalierung.
Abstract
Granite 4.1 demonstriert, dass kleine Modelle mit rigoroser Datenkuratierung große Modelle schlagen können. Die Architektur nutzt Grouped Query Attention, RoPE-Embeddings, SwiGLU-Aktivierungen und shared Embeddings. Trainiert auf 15 Trillionen Tokens in fünf Phasen: Phase 1-2 bauen breites Sprachverständnis auf, Phase 3-4 nutzen Data Annealing mit qualitativ hochwertigem Content, und Phase 5 dehnt den Kontext auf 512K Tokens aus.
Im Supervised Fine-Tuning werden 4.1 Millionen kuratierte Samples verarbeitet. Das Reinforcement Learning nutzt on-policy GRPO mit DAPO-Loss. Trainiert wurden mathematische Fähigkeiten, Coding, Instruction Following und Chat-Qualität. Besonders bemerkenswert: Das Granite 4.1 8B Instruct erreicht oder übertrifft das Granite 4.0-H-Small (32B-Parameter, 9B aktiv) – bei deutlich weniger Parametern.
Alle Modelle stehen unter Apache 2.0 auf Hugging Face bereit. Der technische Blogpost offenbart Details zur Datenkuratierung, darunter striktes Deduplizierung, Heuristik-Filterung gegen niedrigqualitative Content, und Domain-Weighting Strategien für Code, Mathematik, Rechtswissenschaften und technische Domänen.
Link: Hugging Face Blog