Models
Gemini 3.1 Flash TTS: Expressive Sprachsynthese trifft Präzision
Sprachsynthese mit Regisseur-Stuhl
Text-to-Speech war lange eine Black Box: Du gibst Text ein, bekommst Audio. Feinsteuerung? Fehlanzeige. Gemini 3.1 Flash TTS ändert das grundlegend.
Google nennt es Audio Tags – ein intuitives System, um Sprachausgabe mit natürlicher Sprache zu steuern. Stell dir vor, du bist Regisseur: Du gibst Szenenanweisungen, definierst die Umgebung, sagst Akustikern, wie sie sprechen sollen. Alles direkt im Textinput.
Die Features im Detail
Szenen-Regie: Setze die Bühne, definiere die Umgebung, gib spezifische Dialoganweisungen. Charaktere bleiben “in-role” und reagieren natürlich über mehrere Dialogrunden.
Sprecher-Spezifität: Castest Charaktere mit einzigartigen Audio-Profilen, steuerst Tempo, Ton und Akzent über Director’s Notes. Inline-Tags erlauben Mid-Sentence-Wechsel der Expression.
Multi-Speaker Dialog: Native Unterstützung für Gespräche mehrerer Stimmen. Perfekt für Podcasts, Hörspiele, Gaming-Dialoge.
70+ Sprachen: Die internationale Reichweite ist massiv. Von Deutsch über Arabisch bis Zulu.
Qualität und Verfügbarkeit
Auf der Artificial Analysis TTS Leaderboard erreicht Gemini 3.1 Flash TTS einen Elo-Score von 1.211 – platziert im “most attractive quadrant” für das ideale Verhältnis aus Qualität und Kosten.
Verfügbarkeit:
- Entwickler: Preview via Gemini API und Google AI Studio
- Enterprise: Preview auf Vertex AI
- Workspace: Integration in Google Vids
Kostenstruktur bleibt wettbewerbsfähig. Die Audio-Tags machen Gemini 3.1 Flash TTS besonders für Content-Creator attraktiv, die mehr Kontrolle wollen als “nur Text lesen”.