Models
Gemma 4 VLA auf Jetson Orin Nano: Sprachgesteuerte Vision auf 8GB
Ein VLA, der mitdenkt
Sprich mit Gemma 4, und sie entscheidet selbstständig, ob sie durch die Webcam schauen muss, um deine Frage zu beantworten. Keine Keyword-Trigger, keine hardcoded Logik – pures Modell-Reasoning.
Der Pipeline:
Du sprichst → Parakeet STT → Gemma 4 → [Webcam wenn nötig] → Kokoro TTS → Speaker
Auf einem NVIDIA Jetson Orin Nano Super mit 8GB RAM. Kein Cloud-Call, alles lokal.
Besonderheit: Das Modell beschreibt nicht einfach das Bild – es beantwortet deine Frage mit dem visuellen Kontext. Fragst du “Was liegt auf dem Tisch?”, entscheidet Gemma selbst, einen Snapshot zu machen, interpretiert ihn und antwortet.
Hardware-Setup:
- Jetson Orin Nano Super (8GB)
- Logitech C920 Webcam mit integriertem Mic
- USB Speaker
Memory-Optimierung: Mit Swap und Docker-Stop läuft das Q4_K_M-Quant comfortable. Bei Engpässen kann man auf Q3 runtergehen – gleiche Model-Familie, leicht weniger Capability, deutlich weniger RAM.
Der Code: Ein einziges Python-File Gemma4_vla.py. Lädt STT/TTS-Modelle beim ersten Start von Hugging Face.