Article
IBM Granite 4.1: Dense LLMs mit 512K Context
IBM veröffentlicht Granite 4.1 – eine Familie von Dense-LLMs unter Apache 2.0 Lizenz, trainiert auf 15 Trillionen Tokens mit einem raffinierten Five-Stage-Training-Pipeline.
Model-Größen
Granite 4.1 kommt in drei Größen:
| Modell | Parameter | Embedding | Layer |
|---|---|---|---|
| 3B | 3 Milliarden | 2560 | 40 |
| 8B | 8 Milliarden | 4096 | 40 |
| 30B | 30 Milliarden | 4096 | 64 |
Alle nutzen Grouped Query Attention (GQA), RoPE, SwiGLU und RMSNorm. Die 8B-Instruct-Variante erreicht ähnliche Performance wie Granite 4.0-H-Small (ein 32B MoE), trotz weniger Parameter.
Training-Pipeline
IBM setzt auf fünf Phasen statt einfach skalieren:
- Phase 1 (10T Tokens): General Pre-Training mit CommonCrawl, Code-Repositories, Bücher, Wissenschaft
- Phase 2 (2.5T Tokens): Higher-Quality Data mit dedizierten Code- und Math-Anteilen
- Phase 3: Mid-Training mit Quality Annealing
- Phase 4: Weiteres Quality Refinement
- Phase 5: Long Context Training – bis zu 512K Tokens!
Besonders der Long-Context-Teil ist beachtlich. 512K Context bedeutet, Granit kann ganze Codebases oder lange Dokumente in einem Prompt verarbeiten.
Supervised Fine-Tuning
Nach dem Pre-Training folgt SFT mit ~4.1 Millionen kuratierten Samples. IBM nutzt ein LLM-as-Judge Framework zur Qualitätsbewertung.
Reinforcement Learning
Der finale Polish kommt via GRPO (Group Relative Policy Optimization) mit DAPO-Loss:
- Math-Stärkung
- Coding-Verbesserung
- Instruction-Following
- General Chat
Verfügbarkeit
- Hugging Face Collection:
ibm-granite/granite-41-language-models - GitHub Repository für Inference-Code
- Apache 2.0 Lizenz – uneingeschränkt kommerziell nutzbar
Fazit
Granite 4.1 zeigt, dass kleine Dense-Modelle mit sorgfältiger Data Curation mit größeren MoE-Modellen konkurrieren können. Der 512K Context macht die Modelle besonders für Code-Reviews und Dokument-Batches interessant.