Article
Gemma 4 12B: Encoder-freies multimodales Modell für Laptops
Google DeepMind veröffentlicht Gemma 4 12B, ein multimodales Modell mit encoder-freier Unified-Transformer-Architektur, das auf Laptops mit nur 16GB VRAM/Unified Memory läuft.
Architektur-Revolution
Traditionelle multimodale Modelle nutzen separate Encoder für Bild und Audio, dann einen Language Model Backbone. Gemma 4 12B bricht damit: Vision- und Audio-Inputs fließen direkt in den LLM-Backbone – keine Encoder-Zwischenschicht, weniger Overhead, weniger Latenz.
Das ist Googles erstes mid-sized Modell mit nativen Audio-Inputs.
Performance & Hardware
Benchmark-Ergebnisse nähern sich dem größeren 26B MoE-Modell bei weniger als halbem Memory-Footprint. Das Modell positioniert sich zwischen:
- Gemma E4B (Edge-fokussiert, mobil)
- Gemma 26B MoE (High-Performance, Server)
Gemma 4 12B bringt multi-step Reasoning und agentic Workflows auf Consumer-Hardware.
Developer Features
- Multi-Token Prediction (MTP): Integrierte Drafters reduzieren Latenz durch spekulative Dekodierung
- Apache 2.0 Lizenz: Fully open-source
- 150+ Mio Downloads: Die Gemma-Familie erreicht starke Community-Adoption
- Ökosystem-Support: Integration in alle gängigen Frameworks
Use Cases
Die Community hat mit Gemma bereits alles gebaut: von tragbaren Roboterarmen für physische Assistenz bis zu Enterprise-grade AI-Security. Der 12B-Faktor macht multimodale Agenten auf durchschnittlicher Hardware möglich.