Article
Nemotron 3.5 ASR: Multilingual Speech-to-Text für 40 Sprachen
NVIDIA veröffentlicht Nemotron 3.5 ASR streaming multilingual, ein 600M-Parameter Speech-to-Text-Modell, das 40 Language-Locales aus einem einzigen Checkpoint in Echtzeit transkribiert – mit integrierter Interpunktion und Groß-/Kleinschreibung.
Performance-Positionierung
Der Nachfolger des beliebten Nemotron 3 ASR (nur Englisch) erreicht bei Artificial Analysis:
- Platz 2 bei Latency unter allen Streaming-ASR-Modellen
- 0.07 Sekunden bis Final Transcript nach Sprachende
- “Most attractive quadrant” im AA-WER Streaming Index vs. Time to Final Transcription
Architektur
Cache-Aware FastConformer-RNNT mit einzigartigem Streaming: Audio wird ohne redundante Neuberechnung gestreamt (bei den meisten Streaming-ASR der Bottleneck). Das Resultat: Low Latency AND High Accuracy, kein Tradeoff.
Fine-Tuning
Open-Weights auf Hugging Face. Keine API-Abhängigkeit, kein per-call-Billing, volle Kontrolle. Fine-tuning-fähig für:
- Eigene Sprache
- Domänenspezifisches Vokabular
- Akzente
Der zweite Teil des Blogposts detailliert das Fine-Tuning-Workflow.