Article
Reachy Mini lokal betreiben: Sprachsteuerung ohne Cloud
Kurzbeschreibung
Hugging Face zeigt, wie Sie Reachy Mini mit vollständig lokaler Sprachpipeline betreiben. Keine Cloud, keine API-Keys, keine Daten verlassen Ihr Netzwerk – alles läuft auf Ihrer eigenen Hardware.
Vom Cloud-zur-Loakal-Lösung
Nach dem Zusammenbau des Reachy Mini installieren Sie die Conversation-App und beginnen zu sprechen. Bisher mussten Sie Audio an einen Server senden. Das ist vorbei. Dieser Guide führt durch den kompletten Stack auf lokaler Hardware.
Die Lösung basiert auf speech-to-speech, einer kaskadierten VAD → STT → LLM → TTS-Pipeline, die eine Realtime API-kompatible /v1/realtime WebSocket bereitstellt. Kaskadierte Pipelines sind die flexibelste Option im Open-Source-Bereich – mit den richtigen Komponenten sind sie auch die schnellsten.
Quick Start
LLM lokal servieren: Verwenden Sie llama.cpp von Hugging Face. Mit brew install llama.cpp oder winget install llama.cpp installieren, dann:
llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full
Speech-to-Speech einrichten:
uv pip install speech-to-speech
speech-to-speech --responses_api_base_url "http://127.0.0.1:8080" --responses_api_api_key "" --mode local
Beim ersten Start werden Parakeet-TDT 0.6B v3 und Qwen3-TTS heruntergeladen, danach läuft alles schnell.
Warum eigene Speech-to-Speech-Server?
Drei Gründe sprechen dafür:
- Privatsphäre: Audio verlässt nie Ihr Netzwerk
- Keine API-Kosten: Keine Pro-Minute- oder Pro-Token-Gebühren
- Volle Kontrolle: Jede Komponente austauschbar – VAD, STT, LLM, TTS
Die meinungsbildenden Defaults sind Silero VAD v5 für Sprachaktivitätserkennung (winzig, genau, läuft auf CPU), Parakeet-TDT 0.6B v3 für STT (streaming-freundlich, sehr schnell), und Qwen3-TTS für Synthese (expressiv, niedrige Latenz, mehrsprachig, unterstützt Custom-Stimmen).
Optionen für das LLM
Die Pipeline unterstützt lokale Backends (MLX, Transformers) oder externe Inference-Engines mit Responses API (OpenAI, Gemini, HF Inference Endpoints, vLLM). Für Mac-Nutzer ist MLX mit Qwen3-4B-Instruct-2507 die reibungsloseste Lösung. Auf CUDA-Boxen funktioniert transformers mit demselben Modell.
Wichtig bei vLLM: Drei Flags sind erforderlich – --enable-auto-tool-choice für Tool-Integration, --tool-call-parser für strukturierte Tool-Calls, und --default-chat-template-kwargs '{"enable_thinking":false}' um Reasoning-Tokens zu deaktivieren (jedes Thinking-Token ist Latenz, die der Nutzer als Stille hört).
Link: Original bei HuggingFace