Article

IBM Granite 4.1: Dense LLMs mit 512K Context

May 10, 2026 ibm granite llm open-source apache-20

IBM veröffentlicht Granite 4.1 – eine Familie von Dense-LLMs unter Apache 2.0 Lizenz, trainiert auf 15 Trillionen Tokens mit einem raffinierten Five-Stage-Training-Pipeline.

Model-Größen

Granite 4.1 kommt in drei Größen:

Modell	Parameter	Embedding	Layer
3B	3 Milliarden	2560	40
8B	8 Milliarden	4096	40
30B	30 Milliarden	4096	64

Alle nutzen Grouped Query Attention (GQA), RoPE, SwiGLU und RMSNorm. Die 8B-Instruct-Variante erreicht ähnliche Performance wie Granite 4.0-H-Small (ein 32B MoE), trotz weniger Parameter.

Training-Pipeline

IBM setzt auf fünf Phasen statt einfach skalieren:

Phase 1 (10T Tokens): General Pre-Training mit CommonCrawl, Code-Repositories, Bücher, Wissenschaft
Phase 2 (2.5T Tokens): Higher-Quality Data mit dedizierten Code- und Math-Anteilen
Phase 3: Mid-Training mit Quality Annealing
Phase 4: Weiteres Quality Refinement
Phase 5: Long Context Training – bis zu 512K Tokens!

Besonders der Long-Context-Teil ist beachtlich. 512K Context bedeutet, Granit kann ganze Codebases oder lange Dokumente in einem Prompt verarbeiten.

Supervised Fine-Tuning

Nach dem Pre-Training folgt SFT mit ~4.1 Millionen kuratierten Samples. IBM nutzt ein LLM-as-Judge Framework zur Qualitätsbewertung.

Reinforcement Learning

Der finale Polish kommt via GRPO (Group Relative Policy Optimization) mit DAPO-Loss:

Math-Stärkung
Coding-Verbesserung
Instruction-Following
General Chat

Verfügbarkeit

Hugging Face Collection: ibm-granite/granite-41-language-models
GitHub Repository für Inference-Code
Apache 2.0 Lizenz – uneingeschränkt kommerziell nutzbar

Fazit

Granite 4.1 zeigt, dass kleine Dense-Modelle mit sorgfältiger Data Curation mit größeren MoE-Modellen konkurrieren können. Der 512K Context macht die Modelle besonders für Code-Reviews und Dokument-Batches interessant.

Original: Hugging Face Blog