Article

Nemotron 3.5 ASR: Multilingual Speech-to-Text für 40 Sprachen

NVIDIA ASR Speech-to-Text Multilingual Nemotron

NVIDIA veröffentlicht Nemotron 3.5 ASR streaming multilingual, ein 600M-Parameter Speech-to-Text-Modell, das 40 Language-Locales aus einem einzigen Checkpoint in Echtzeit transkribiert – mit integrierter Interpunktion und Groß-/Kleinschreibung.

Performance-Positionierung

Der Nachfolger des beliebten Nemotron 3 ASR (nur Englisch) erreicht bei Artificial Analysis:

  • Platz 2 bei Latency unter allen Streaming-ASR-Modellen
  • 0.07 Sekunden bis Final Transcript nach Sprachende
  • “Most attractive quadrant” im AA-WER Streaming Index vs. Time to Final Transcription

Architektur

Cache-Aware FastConformer-RNNT mit einzigartigem Streaming: Audio wird ohne redundante Neuberechnung gestreamt (bei den meisten Streaming-ASR der Bottleneck). Das Resultat: Low Latency AND High Accuracy, kein Tradeoff.

Fine-Tuning

Open-Weights auf Hugging Face. Keine API-Abhängigkeit, kein per-call-Billing, volle Kontrolle. Fine-tuning-fähig für:

  • Eigene Sprache
  • Domänenspezifisches Vokabular
  • Akzente

Der zweite Teil des Blogposts detailliert das Fine-Tuning-Workflow.

Hugging Face: Nemotron 3.5 ASR | Blogpost