Article

IBM Granite 4.1: Dense LLMs mit 512K Context

ibm granite llm open-source apache-20

IBM veröffentlicht Granite 4.1 – eine Familie von Dense-LLMs unter Apache 2.0 Lizenz, trainiert auf 15 Trillionen Tokens mit einem raffinierten Five-Stage-Training-Pipeline.

Model-Größen

Granite 4.1 kommt in drei Größen:

ModellParameterEmbeddingLayer
3B3 Milliarden256040
8B8 Milliarden409640
30B30 Milliarden409664

Alle nutzen Grouped Query Attention (GQA), RoPE, SwiGLU und RMSNorm. Die 8B-Instruct-Variante erreicht ähnliche Performance wie Granite 4.0-H-Small (ein 32B MoE), trotz weniger Parameter.

Training-Pipeline

IBM setzt auf fünf Phasen statt einfach skalieren:

  1. Phase 1 (10T Tokens): General Pre-Training mit CommonCrawl, Code-Repositories, Bücher, Wissenschaft
  2. Phase 2 (2.5T Tokens): Higher-Quality Data mit dedizierten Code- und Math-Anteilen
  3. Phase 3: Mid-Training mit Quality Annealing
  4. Phase 4: Weiteres Quality Refinement
  5. Phase 5: Long Context Training – bis zu 512K Tokens!

Besonders der Long-Context-Teil ist beachtlich. 512K Context bedeutet, Granit kann ganze Codebases oder lange Dokumente in einem Prompt verarbeiten.

Supervised Fine-Tuning

Nach dem Pre-Training folgt SFT mit ~4.1 Millionen kuratierten Samples. IBM nutzt ein LLM-as-Judge Framework zur Qualitätsbewertung.

Reinforcement Learning

Der finale Polish kommt via GRPO (Group Relative Policy Optimization) mit DAPO-Loss:

  • Math-Stärkung
  • Coding-Verbesserung
  • Instruction-Following
  • General Chat

Verfügbarkeit

  • Hugging Face Collection: ibm-granite/granite-41-language-models
  • GitHub Repository für Inference-Code
  • Apache 2.0 Lizenz – uneingeschränkt kommerziell nutzbar

Fazit

Granite 4.1 zeigt, dass kleine Dense-Modelle mit sorgfältiger Data Curation mit größeren MoE-Modellen konkurrieren können. Der 512K Context macht die Modelle besonders für Code-Reviews und Dokument-Batches interessant.

Original: Hugging Face Blog