Article

VibeVoice: Microsofts Open-Source-Sprach-KI

microsoft vibevoice speech asr tts open-source

Mit VibeVoice veröffentlicht Microsoft eine umfassende Open-Source-Sprach-KI-Familie, die sowohl Text-to-Speech als auch automatische Spracherkennung abdeckt. Das Projekt kombiniert akustische und semantische Tokenizer mit einer extrem niedrigen Framerate von 7,5 Hz und nutzt einen next-token Diffusion Framework mit LLM-Integration für kontextbewusste Sprachgenerierung.

VibeVoice-ASR ist das Herzstück für Spracherkennung: Das Modell verarbeitet bis zu 60 Minuten Audio in einem einzigen Durchlauf und generiert strukturierte Transkripte mit Sprecher-Identifikation, Zeitstempeln und Inhalt. Es unterstützt über 50 Sprachen nativ und ist mittlerweile direkt über die Hugging Face Transformers-Bibliothek nutzbar. Der Finetuning-Code ist öffentlich verfügbar, ebenso vLLM-Integration für schnellere Inferenz.

Für Text-to-Speech bietet VibeVoice Realtime-0.5B ein 500-Millionen-Parameter-Modell mit Streaming-Eingabe und robuster Langform-Generierung. Experimentelle Sprecher-Stimmen decken neun Sprachen plus elf verschiedene englische Stile ab. Das ursprüngliche VibeVoice-TTS für bis zu 90-minütige Multi-Speaker-Synthese wurde aus dem Repository entfernt.

Die Architektur setzt auf kontinuierliche Sprach-Tokenizer, die Audio-Information effizient komprimieren und gleichzeitig die Akustik-Treue bewahren. Das ermöglicht skalierbare Verarbeitung langer Audiosequenzen ohne Qualitätsverluste.

Quelle: GitHub microsoft/VibeVoice