Article

Wie Frontier-Modelle guenstiger werden: Die Triager-Architektur

Claude Opus LLM-Kosten Agent-Architektur

Ein ueberraschendes Ergebnis: Mendral nutzt Opus fuer CI-Fehler-Analysen und zahlt weniger als vorher mit Sonnet. Das Geheimnis ist nicht ein kleineres Modell, sondern eine kluge Architektur, die teure Modelle sparsam einsetzt.

Das Problem

Bei 4.000 CI-Fehlern pro Woche waren nur 818 neue Probleme. Die restlichen 3.187 waren Duplikate bekannter Issues. Ein grosses Modell fuer alles aufzurufen ist Verschwendung.

Die urspruengliche Loesung mit Sonnet war das Schlimmste beider Welten: teuer und minderwertige Ergebnisse.

Die Loesung: Triager-Pattern

Ein billiges Haiku-Modell entscheidet zuerst: Ist dieser Fehler bereits bekannt? Nur wenn nicht, wird Opus aktiviert.

Der Triager nutzt zwei Suchwerkzeuge:

  1. Exakte Uebereinstimmung fuer bekannte Fehlerschnipsel
  2. Semantische Suche (pgvector) fuer aehnliche, aber nicht identische Fehler

Vier von fünf Fehlern erreichen Opus nie. Ein Triager-Match kostet etwa 25x weniger als eine vollstaendige Untersuchung.

Kontext per Pull statt Push

Anstatt 200K+ Logzeilen in den Prompt zu laden, erhaelt der Agent eine SQL-Schnittstelle zu ClickHouse. Der Agent fragt nur das ab, was er braucht. Das verhindert Anchoring-Bias - wenn man einem Agenten spezifische Logs gibt, verankert er sich daran und uebersieht andere Ursachen.

Orchestrator plant, Worker graben

Opus formuliert Hypothesen und delegiert die Arbeit an Haiku-Sub-Agenten. Jeder Sub-Agent erhaelt einen praezisen Prompt: Was zu suchen, wie zu suchen, was zurueckzugeben. Sub-Agenten sind auf eine Ebene beschraenkt - unbegrenzter Fan-out fuehrt zu explodierenden Kosten.

Link: We decreased our LLM costs with Opus