Article

IBMs Granite 4.1: Open-Source LLMs für Enterprise

Models IBM Granite Open Source LLM

IBM stellt Granite 4.1 vor - eine Familie von Dense-LLMs in drei Grössen (3B, 8B, 30B), alle unter Apache 2.0 Lizenz. Der 8B Instruct übertrifft den Vorgänger Granite 4.0-H-Small (32B MoE), trotz weniger Parameter.

Trainingspipeline

Die Modelle wurden auf ~15 Billionen Token trainiert, verteilt auf fünf Phasen:

  • Phase 1-2: Generelles Pre-Training (10T Token)
  • Phase 3-4: Mid-Training mit qualitätsveredelten Daten
  • Phase 5: Long-Context Training bis 512K Token

Architektur

Granite 4.1 nutzt Grouped Query Attention (GQA), Rotary Position Embeddings (RoPE), SwiGLU-Aktivierungen und RMSNorm. Geteilte Input/Output Embeddings reduzieren Parameter.

Fine-Tuning

Supervised Fine-Tuning mit 4.1M kuratierten Samples. Ein LLM-as-Judge Framework filtert Qualitätsdaten. Reinforcement Learning via GRPO mit DAPO-Verlust optimiert Mathematik, Coding und Instruction-Following.

Verfügbarkeit

Alle Modelle sind auf Hugging Face verfügbar. Die 512K Token Context-Länge macht sie ideal für Enterprise-Dokumente.

Link: Hugging Face Blog - Granite 4.1