Models

Gemma 4: Multimodal KI läuft auf dem Handy

models google gemma multimodal

Google DeepMind öffnet die Toolbox

Nach Gemma 1, 2 und 3 ist jetzt Version 4 da – und die macht einen gewaltigen Sprung. Die neue Modell-Familie von Google DeepMind ist multimodal, für Endgeräte optimiert und kommt in vier Größen.

Was neu ist:

  • Audio-Support bei den kleinen Modellen (E2B, E4B)
  • Variable Aspect Ratios für Bilder – Flexibilität statt Starres Format
  • Lange Kontexte – bis zu 128k Tokens
  • Apache 2.0 Lizenz – wirklich offen, nicht nur Marketing-Sprech

Die Größen:

  • E2B (2.3B effektiv): Läuft auf Smartphones
  • E4B (4B): Tablets, Edge-Devices
  • 12B: Workstation
  • 27B: Flaggschiff für Server

Der Tech-Stack: Hugging Face hat Integrationen parat – transformers, llama.cpp, MLX, WebGPU. Feintuning mit TRL und Unsloth funktioniert out-of-the-box. Die Benchmarks zeigen: Gemma 4 spielt in der Liga der großen Jäger mit, bei deutlich geringerem Footprint.

Für Devs bedeutet das: Endlich ein Open-Modell, das auf Edge läuft und trotzdem multimodal kann. Keine Cloud mehr für jeden Prompt.

Original bei Hugging Face Blog