Article

Ollama für lokale KI-Modelle als Schnellstart-Guide

Ollama hat sich als Standard-Tool für den Betrieb von Large Language Models auf lokaler Hardware etabliert. Dieser Guide zeigt den schnellsten Weg zu einem funktionierenden Setup mit Hardware-Beschleunigung.

Installation

Auf Linux reicht ein einfacher Curl-Befehl:

curl -fsSL https://ollama.com/install.sh | sh

macOS und Windows werden über native Installer unterstützt. Die Installation pullt automatisch die neueste Version.

Erstes Modell

Nach der Installation steht ein Modell bereit:

ollama run deepseek-v4-flash

Ollama lädt das Modell herunter und startet eine interaktive Session. Mit Strg+D beenden Sie die Session. Alternativ lässt sich jede andere API ansprechen.

Modell-Verwaltung

Verfügbare Modelle auflisten:

ollama list

Ein Modell entfernen:

ollama rm deepseek-v4-flash

Modelle updaten:

ollama pull deepseek-v4-flash

Hardware-Beschleunigung

Ollama nutzt automatisch verfügbare GPU-Beschleunigung. Für NVIDIA-GPUs muss der Treiber installiert sein. AMD-GPUs werden über ROCm unterstützt. Apple Silicon nutzt Metal.

Speicherverbrauch prüfen:

ollama ps

Zeigt laufende Modelle und deren RAM-Verbrauch.

API-Integration

Ollama bietet eine OpenAI-kompatible API, die sich direkt in bestehende Workflows integrieren lässt. Der Endpoint läuft standardmäßig auf Port 11434.

Modell-Auswahl

Für Produktionsumgebungen empfiehlt sich eine strategische Auswahl:

  • Flash-Varianten: Schnell, geringer RAM-Verbrauch, ideal für viele Anfragen
  • Pro-Varianten: Höhere Qualität, mehr RAM, für komplexe Reasoning-Tasks
  • Spezialisierte Modelle: Coding (DeepSeek-Coder), Reasoning (DeepSeek-R1)

Original-Quelle

Ollama Documentation