Tutorials

Gemini API Flex & Priority: Kosten kontrollieren, Latenz managen

tutorials gemini api google pricing

Zwei Tiers, ein Interface

AI-Applikationen haben zwei Arten von Aufgaben: Interaktive Features mit User-Facing-Responsibility, und Background-Jobs, wo Latenz egal ist. Bisher musste man dafür getrennte Architekturen aufbauen – Synchronous API für Chatbots, Batch API für Dataprocessing.

Google löst das mit einem Parameter: service_tier.

Flex Inference – 50% günstiger

Für latenztolerante Workloads ohne Batch-Overhead. Gleiche sync-Endpoints, keine Input/Output-Files, kein Job-Polling.

service_tier="flex"

Ideal für:

  • CRM-Hintergrund-Updates
  • Research-Simulationen
  • Agenten-“Thinking”-Prozesse

Priority Inference – Höchste Zuverlässigkeit

Für kritische User-Interaktion. Requests erhalten höchste Criticality, werden auch bei Peak-Load nicht präemptiert.

service_tier="priority"

Overflow bei Limits wird automatisch auf Standard herabgestuft statt zu failen. Die Response zeigt, welches Tier den Request bedient hat.

Der Mehrwert: Keine Architektur-Splits mehr. Ein Unified Interface für alle Workload-Typen. Bei Flex sparst du die Hälfte, bei Priority kriegst du garantierte Uptime.

Original bei Google Blog