Models

Gemini 3.1 Flash TTS: Expressive Sprachsynthese trifft Präzision

models google gemini tts sprachsynthese

Sprachsynthese mit Regisseur-Stuhl

Text-to-Speech war lange eine Black Box: Du gibst Text ein, bekommst Audio. Feinsteuerung? Fehlanzeige. Gemini 3.1 Flash TTS ändert das grundlegend.

Google nennt es Audio Tags – ein intuitives System, um Sprachausgabe mit natürlicher Sprache zu steuern. Stell dir vor, du bist Regisseur: Du gibst Szenenanweisungen, definierst die Umgebung, sagst Akustikern, wie sie sprechen sollen. Alles direkt im Textinput.

Die Features im Detail

Szenen-Regie: Setze die Bühne, definiere die Umgebung, gib spezifische Dialoganweisungen. Charaktere bleiben “in-role” und reagieren natürlich über mehrere Dialogrunden.

Sprecher-Spezifität: Castest Charaktere mit einzigartigen Audio-Profilen, steuerst Tempo, Ton und Akzent über Director’s Notes. Inline-Tags erlauben Mid-Sentence-Wechsel der Expression.

Multi-Speaker Dialog: Native Unterstützung für Gespräche mehrerer Stimmen. Perfekt für Podcasts, Hörspiele, Gaming-Dialoge.

70+ Sprachen: Die internationale Reichweite ist massiv. Von Deutsch über Arabisch bis Zulu.

Qualität und Verfügbarkeit

Auf der Artificial Analysis TTS Leaderboard erreicht Gemini 3.1 Flash TTS einen Elo-Score von 1.211 – platziert im “most attractive quadrant” für das ideale Verhältnis aus Qualität und Kosten.

Verfügbarkeit:

  • Entwickler: Preview via Gemini API und Google AI Studio
  • Enterprise: Preview auf Vertex AI
  • Workspace: Integration in Google Vids

Kostenstruktur bleibt wettbewerbsfähig. Die Audio-Tags machen Gemini 3.1 Flash TTS besonders für Content-Creator attraktiv, die mehr Kontrolle wollen als “nur Text lesen”.

Gemini 3.1 Flash TTS