Article
Ollama für lokale KI-Modelle als Schnellstart-Guide
Ollama hat sich als Standard-Tool für den Betrieb von Large Language Models auf lokaler Hardware etabliert. Dieser Guide zeigt den schnellsten Weg zu einem funktionierenden Setup mit Hardware-Beschleunigung.
Installation
Auf Linux reicht ein einfacher Curl-Befehl:
curl -fsSL https://ollama.com/install.sh | sh
macOS und Windows werden über native Installer unterstützt. Die Installation pullt automatisch die neueste Version.
Erstes Modell
Nach der Installation steht ein Modell bereit:
ollama run deepseek-v4-flash
Ollama lädt das Modell herunter und startet eine interaktive Session. Mit Strg+D beenden Sie die Session. Alternativ lässt sich jede andere API ansprechen.
Modell-Verwaltung
Verfügbare Modelle auflisten:
ollama list
Ein Modell entfernen:
ollama rm deepseek-v4-flash
Modelle updaten:
ollama pull deepseek-v4-flash
Hardware-Beschleunigung
Ollama nutzt automatisch verfügbare GPU-Beschleunigung. Für NVIDIA-GPUs muss der Treiber installiert sein. AMD-GPUs werden über ROCm unterstützt. Apple Silicon nutzt Metal.
Speicherverbrauch prüfen:
ollama ps
Zeigt laufende Modelle und deren RAM-Verbrauch.
API-Integration
Ollama bietet eine OpenAI-kompatible API, die sich direkt in bestehende Workflows integrieren lässt. Der Endpoint läuft standardmäßig auf Port 11434.
Modell-Auswahl
Für Produktionsumgebungen empfiehlt sich eine strategische Auswahl:
- Flash-Varianten: Schnell, geringer RAM-Verbrauch, ideal für viele Anfragen
- Pro-Varianten: Höhere Qualität, mehr RAM, für komplexe Reasoning-Tasks
- Spezialisierte Modelle: Coding (DeepSeek-Coder), Reasoning (DeepSeek-R1)