Tutorials
Gemini API Flex & Priority: Kosten kontrollieren, Latenz managen
Zwei Tiers, ein Interface
AI-Applikationen haben zwei Arten von Aufgaben: Interaktive Features mit User-Facing-Responsibility, und Background-Jobs, wo Latenz egal ist. Bisher musste man dafür getrennte Architekturen aufbauen – Synchronous API für Chatbots, Batch API für Dataprocessing.
Google löst das mit einem Parameter: service_tier.
Flex Inference – 50% günstiger
Für latenztolerante Workloads ohne Batch-Overhead. Gleiche sync-Endpoints, keine Input/Output-Files, kein Job-Polling.
service_tier="flex"
Ideal für:
- CRM-Hintergrund-Updates
- Research-Simulationen
- Agenten-“Thinking”-Prozesse
Priority Inference – Höchste Zuverlässigkeit
Für kritische User-Interaktion. Requests erhalten höchste Criticality, werden auch bei Peak-Load nicht präemptiert.
service_tier="priority"
Overflow bei Limits wird automatisch auf Standard herabgestuft statt zu failen. Die Response zeigt, welches Tier den Request bedient hat.
Der Mehrwert: Keine Architektur-Splits mehr. Ein Unified Interface für alle Workload-Typen. Bei Flex sparst du die Hälfte, bei Priority kriegst du garantierte Uptime.