Article

Gemini 3.5 Live Translate: Echtzeit-Stimme-zu-Stimme-Übersetzung

Google hat Gemini 3.5 Live Translate vorgestellt, ein Speech-to-Speech-Modell für Echtzeit-Übersetzung in über 70 Sprachen. Das Modell gehört zur Gemini-3.5-Familie und ist deutlich schneller und natürlicher als bisherige Lösungen.

Kern-Features

  • Automatische Spracherkennung: Erkennt Sprache automatisch, keine manuelle Konfiguration nötig
  • Stimmerhalt: Bewahrt Intonation, Sprechgeschwindigkeit und Tonhöhe – die übersetzte Stimme klingt wie der Sprecher, nicht wie ein Roboter
  • Geringe Latenz: Folgt nur wenige Sekunden hinter dem Sprecher
  • Hintergrundrauschen-Filter: Funktioniert auch in lauten Umgebungen
  • SynthID Watermarks: Sämtliche generierte Audios sind mit Wasserzeichen markiert

Verfügbarkeit

Gemini 3.5 Live Translate rollt über mehrere Google-Produkte aus:

  • Gemini Live API & AI Studio: Öffentliche Preview für Entwickler
  • Google Meet: Zunächst für Enterprise-Kunden, dann breiter Rollout
  • Google Translate App: Coming soon für Android und iOS

Das Modell ist Teil der Gemini-3.5-Familie, die bei I/O 2026 vorgestellt wurde. Neben der Live-Translate-Version gibt es bereits Flash, mit Pro in den kommenden Wochen.

Technische Details

Das Modell verarbeitet Sprache kontinuierlich und handhabt mehrsprachige Inputs automatisch. Entwickler müssen keine Einstellungen konfigurieren – das Modell erkennt und übersetzt eigenständig.

Google betont, dass die Demos unter kontrollierten Bedingungen aufgenommen wurden, die Praxis-Performance bleibt abzuwarten.


Quelle: Ars Technica