Models
Gemma 4: Multimodal KI läuft auf dem Handy
Google DeepMind öffnet die Toolbox
Nach Gemma 1, 2 und 3 ist jetzt Version 4 da – und die macht einen gewaltigen Sprung. Die neue Modell-Familie von Google DeepMind ist multimodal, für Endgeräte optimiert und kommt in vier Größen.
Was neu ist:
- Audio-Support bei den kleinen Modellen (E2B, E4B)
- Variable Aspect Ratios für Bilder – Flexibilität statt Starres Format
- Lange Kontexte – bis zu 128k Tokens
- Apache 2.0 Lizenz – wirklich offen, nicht nur Marketing-Sprech
Die Größen:
- E2B (2.3B effektiv): Läuft auf Smartphones
- E4B (4B): Tablets, Edge-Devices
- 12B: Workstation
- 27B: Flaggschiff für Server
Der Tech-Stack: Hugging Face hat Integrationen parat – transformers, llama.cpp, MLX, WebGPU. Feintuning mit TRL und Unsloth funktioniert out-of-the-box. Die Benchmarks zeigen: Gemma 4 spielt in der Liga der großen Jäger mit, bei deutlich geringerem Footprint.
Für Devs bedeutet das: Endlich ein Open-Modell, das auf Edge läuft und trotzdem multimodal kann. Keine Cloud mehr für jeden Prompt.