Models

Gemma 4: Multimodal KI läuft auf dem Handy

April 22, 2026 models google gemma multimodal

Google DeepMind öffnet die Toolbox

Nach Gemma 1, 2 und 3 ist jetzt Version 4 da – und die macht einen gewaltigen Sprung. Die neue Modell-Familie von Google DeepMind ist multimodal, für Endgeräte optimiert und kommt in vier Größen.

Was neu ist:

Audio-Support bei den kleinen Modellen (E2B, E4B)
Variable Aspect Ratios für Bilder – Flexibilität statt Starres Format
Lange Kontexte – bis zu 128k Tokens
Apache 2.0 Lizenz – wirklich offen, nicht nur Marketing-Sprech

Die Größen:

E2B (2.3B effektiv): Läuft auf Smartphones
E4B (4B): Tablets, Edge-Devices
12B: Workstation
27B: Flaggschiff für Server

Der Tech-Stack: Hugging Face hat Integrationen parat – transformers, llama.cpp, MLX, WebGPU. Feintuning mit TRL und Unsloth funktioniert out-of-the-box. Die Benchmarks zeigen: Gemma 4 spielt in der Liga der großen Jäger mit, bei deutlich geringerem Footprint.

Für Devs bedeutet das: Endlich ein Open-Modell, das auf Edge läuft und trotzdem multimodal kann. Keine Cloud mehr für jeden Prompt.

→ Original bei Hugging Face Blog

Read Full Article ↗