Article

Reachy Mini lokal betreiben: Sprachsteuerung ohne Cloud

May 29, 2026 robotics voice local-ai speech-to-speech

Kurzbeschreibung

Hugging Face zeigt, wie Sie Reachy Mini mit vollständig lokaler Sprachpipeline betreiben. Keine Cloud, keine API-Keys, keine Daten verlassen Ihr Netzwerk – alles läuft auf Ihrer eigenen Hardware.

Vom Cloud-zur-Loakal-Lösung

Nach dem Zusammenbau des Reachy Mini installieren Sie die Conversation-App und beginnen zu sprechen. Bisher mussten Sie Audio an einen Server senden. Das ist vorbei. Dieser Guide führt durch den kompletten Stack auf lokaler Hardware.

Die Lösung basiert auf speech-to-speech, einer kaskadierten VAD → STT → LLM → TTS-Pipeline, die eine Realtime API-kompatible /v1/realtime WebSocket bereitstellt. Kaskadierte Pipelines sind die flexibelste Option im Open-Source-Bereich – mit den richtigen Komponenten sind sie auch die schnellsten.

Quick Start

LLM lokal servieren: Verwenden Sie llama.cpp von Hugging Face. Mit brew install llama.cpp oder winget install llama.cpp installieren, dann:

llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full

Speech-to-Speech einrichten:

uv pip install speech-to-speech
speech-to-speech --responses_api_base_url "http://127.0.0.1:8080" --responses_api_api_key "" --mode local

Beim ersten Start werden Parakeet-TDT 0.6B v3 und Qwen3-TTS heruntergeladen, danach läuft alles schnell.

Warum eigene Speech-to-Speech-Server?

Drei Gründe sprechen dafür:

Privatsphäre: Audio verlässt nie Ihr Netzwerk
Keine API-Kosten: Keine Pro-Minute- oder Pro-Token-Gebühren
Volle Kontrolle: Jede Komponente austauschbar – VAD, STT, LLM, TTS

Die meinungsbildenden Defaults sind Silero VAD v5 für Sprachaktivitätserkennung (winzig, genau, läuft auf CPU), Parakeet-TDT 0.6B v3 für STT (streaming-freundlich, sehr schnell), und Qwen3-TTS für Synthese (expressiv, niedrige Latenz, mehrsprachig, unterstützt Custom-Stimmen).

Optionen für das LLM

Die Pipeline unterstützt lokale Backends (MLX, Transformers) oder externe Inference-Engines mit Responses API (OpenAI, Gemini, HF Inference Endpoints, vLLM). Für Mac-Nutzer ist MLX mit Qwen3-4B-Instruct-2507 die reibungsloseste Lösung. Auf CUDA-Boxen funktioniert transformers mit demselben Modell.

Wichtig bei vLLM: Drei Flags sind erforderlich – --enable-auto-tool-choice für Tool-Integration, --tool-call-parser für strukturierte Tool-Calls, und --default-chat-template-kwargs '{"enable_thinking":false}' um Reasoning-Tokens zu deaktivieren (jedes Thinking-Token ist Latenz, die der Nutzer als Stille hört).

Link: Original bei HuggingFace