Article

Granite 4.1: IBMs Enterprise-LLMs mit 512K Kontext

IBM veröffentlicht Granite 4.1: Dense Decoder-LLMs in 3B, 8B und 30B mit Apache-2.0-Lizenz und beeindruckenden Benchmarks.

Kurzbeschreibung

Die neue Granite-Familie nutzt ein fünfstufiges Pretraining mit qualitätsorientiertem Data-Annealing. Das 8B-Modell schlägt das vorherige Granite 4.0-H-Small (32B MoE) trotz wenigerer Parameter – ein Triumph von Datenqualität über Skalierung.

Abstract

Granite 4.1 demonstriert, dass kleine Modelle mit rigoroser Datenkuratierung große Modelle schlagen können. Die Architektur nutzt Grouped Query Attention, RoPE-Embeddings, SwiGLU-Aktivierungen und shared Embeddings. Trainiert auf 15 Trillionen Tokens in fünf Phasen: Phase 1-2 bauen breites Sprachverständnis auf, Phase 3-4 nutzen Data Annealing mit qualitativ hochwertigem Content, und Phase 5 dehnt den Kontext auf 512K Tokens aus.

Im Supervised Fine-Tuning werden 4.1 Millionen kuratierte Samples verarbeitet. Das Reinforcement Learning nutzt on-policy GRPO mit DAPO-Loss. Trainiert wurden mathematische Fähigkeiten, Coding, Instruction Following und Chat-Qualität. Besonders bemerkenswert: Das Granite 4.1 8B Instruct erreicht oder übertrifft das Granite 4.0-H-Small (32B-Parameter, 9B aktiv) – bei deutlich weniger Parametern.

Alle Modelle stehen unter Apache 2.0 auf Hugging Face bereit. Der technische Blogpost offenbart Details zur Datenkuratierung, darunter striktes Deduplizierung, Heuristik-Filterung gegen niedrigqualitative Content, und Domain-Weighting Strategien für Code, Mathematik, Rechtswissenschaften und technische Domänen.

Link: Hugging Face Blog