Models

Gemma 4 VLA auf Jetson Orin Nano: Sprachgesteuerte Vision auf 8GB

models gemma4 nvidia jetson vla edge

Ein VLA, der mitdenkt

Sprich mit Gemma 4, und sie entscheidet selbstständig, ob sie durch die Webcam schauen muss, um deine Frage zu beantworten. Keine Keyword-Trigger, keine hardcoded Logik – pures Modell-Reasoning.

Der Pipeline:

Du sprichst → Parakeet STT → Gemma 4 → [Webcam wenn nötig] → Kokoro TTS → Speaker

Auf einem NVIDIA Jetson Orin Nano Super mit 8GB RAM. Kein Cloud-Call, alles lokal.

Besonderheit: Das Modell beschreibt nicht einfach das Bild – es beantwortet deine Frage mit dem visuellen Kontext. Fragst du “Was liegt auf dem Tisch?”, entscheidet Gemma selbst, einen Snapshot zu machen, interpretiert ihn und antwortet.

Hardware-Setup:

  • Jetson Orin Nano Super (8GB)
  • Logitech C920 Webcam mit integriertem Mic
  • USB Speaker

Memory-Optimierung: Mit Swap und Docker-Stop läuft das Q4_K_M-Quant comfortable. Bei Engpässen kann man auf Q3 runtergehen – gleiche Model-Familie, leicht weniger Capability, deutlich weniger RAM.

Der Code: Ein einziges Python-File Gemma4_vla.py. Lädt STT/TTS-Modelle beim ersten Start von Hugging Face.

Original bei Hugging Face Blog