Article
IBMs Granite 4.1: Open-Source LLMs für Enterprise
IBM stellt Granite 4.1 vor - eine Familie von Dense-LLMs in drei Grössen (3B, 8B, 30B), alle unter Apache 2.0 Lizenz. Der 8B Instruct übertrifft den Vorgänger Granite 4.0-H-Small (32B MoE), trotz weniger Parameter.
Trainingspipeline
Die Modelle wurden auf ~15 Billionen Token trainiert, verteilt auf fünf Phasen:
- Phase 1-2: Generelles Pre-Training (10T Token)
- Phase 3-4: Mid-Training mit qualitätsveredelten Daten
- Phase 5: Long-Context Training bis 512K Token
Architektur
Granite 4.1 nutzt Grouped Query Attention (GQA), Rotary Position Embeddings (RoPE), SwiGLU-Aktivierungen und RMSNorm. Geteilte Input/Output Embeddings reduzieren Parameter.
Fine-Tuning
Supervised Fine-Tuning mit 4.1M kuratierten Samples. Ein LLM-as-Judge Framework filtert Qualitätsdaten. Reinforcement Learning via GRPO mit DAPO-Verlust optimiert Mathematik, Coding und Instruction-Following.
Verfügbarkeit
Alle Modelle sind auf Hugging Face verfügbar. Die 512K Token Context-Länge macht sie ideal für Enterprise-Dokumente.