Article

Nemotron 3.5 ASR: Multilingual Speech-to-Text für 40 Sprachen

June 04, 2026 NVIDIA ASR Speech-to-Text Multilingual Nemotron

NVIDIA veröffentlicht Nemotron 3.5 ASR streaming multilingual, ein 600M-Parameter Speech-to-Text-Modell, das 40 Language-Locales aus einem einzigen Checkpoint in Echtzeit transkribiert – mit integrierter Interpunktion und Groß-/Kleinschreibung.

Performance-Positionierung

Der Nachfolger des beliebten Nemotron 3 ASR (nur Englisch) erreicht bei Artificial Analysis:

Platz 2 bei Latency unter allen Streaming-ASR-Modellen
0.07 Sekunden bis Final Transcript nach Sprachende
“Most attractive quadrant” im AA-WER Streaming Index vs. Time to Final Transcription

Architektur

Cache-Aware FastConformer-RNNT mit einzigartigem Streaming: Audio wird ohne redundante Neuberechnung gestreamt (bei den meisten Streaming-ASR der Bottleneck). Das Resultat: Low Latency AND High Accuracy, kein Tradeoff.

Fine-Tuning

Open-Weights auf Hugging Face. Keine API-Abhängigkeit, kein per-call-Billing, volle Kontrolle. Fine-tuning-fähig für:

Eigene Sprache
Domänenspezifisches Vokabular
Akzente

Der zweite Teil des Blogposts detailliert das Fine-Tuning-Workflow.

Hugging Face: Nemotron 3.5 ASR | Blogpost