Models
Granite 4.0 3B Vision: IBMs kompakter VLM für Enterprise-Dokumente
Spezialist statt Generalist
Granite 4.0 3B Vision geht einen anderen Weg als die meisten Vision-Language-Modelle. Statt alles zu können, fokussiert sich das 3-Milliarden-Parameter-Modell auf eine kritische Enterprise-Anforderung: Das zuverlässige Extrahieren strukturierter Informationen aus komplexen Dokumenten.
Die Kernfähigkeiten sind praxisorientiert: Tabellenextraktion aus mehrzeiligen und mehrspaltigen Strukturen, Chart-Verständnis mit Umwandlung in strukturierte Formate, und semantische Key-Value-Pair-Extraction über diverse Dokumentlayouts hinweg. Das Modell gibt es als LoRA-Adapter auf Basis von Granite 4.0 Micro – eine modulare Architektur, die Vision und Language trennt und Fallbacks auf reinen Text erlaubt.
ChartNet: Das Trainingsgeheimnis
Charts sind eine besondere Herausforderung für VLMs. Sie erfordern das gleichzeitige Reasoning über visuelle Muster, numerische Daten und natürliche Sprache. Die meisten Modelle scheitern hier, besonders wenn es um räumliche Präzision geht.
IBM löste das Problem mit ChartNet: Einem Millionenskalaren multimodalen Dataset, das durch code-geführte Synthese entstand. Jedes Sample enthält fünf komponenten: Plotting-Code, gerendertes Bild, Datentabelle, natürlichsprachige Zusammenfassung und QA-Paare. Das Resultat: 1.7 Millionen diverse Chart-Samples über 24 Chart-Typen und 6 Plotting-Bibliotheken.
Die Architektur nutzt eine Variante des DeepStack-Designs für die Injektion hochauflösender visueller Features. Zusammen mit Docling lässt sich Granite 4.0 3B Vision nahtlos in bestehende Dokumentverarbeitungspipelines integrieren.