Article

Token-Effizienz in GitHub Agentic Workflows optimieren

GitHub Agentic Workflows sind wie fleißige Street-Sweeper, die kleine Unordnungen in eurem Repository aufräumen. Das Problem: Die Kosten summieren sich unbemerkt. Hier erfahrt ihr, wie GitHub selbst die Token-Nutzung optimiert hat.

Agentic Workflows, die bei jedem Pull Request automatisch laufen, können unerwartet hohe API-Rechnungen verursachen. Da diese CI-Jobs automatisch getriggert werden, bleibt der Kostentreiber oft unsichtbar. Das GitHub-Team hat das Problem systematisch angepackt – mit API-Proxies, automatisierten Auditoren und cleveren Optimierungsstrategien. Das Ergebnis: Einsparungen von bis zu 62% bei einzelnen Workflows.

Original-Artikel

Token-Usage systematisch tracken

Bevor ihr optimieren könnt, müsst ihr wissen, wo die Tokens überhaupt verbraucht werden. Das GitHub-Team nutzt einen API-Proxy, der alle Token-Nutzung in einer einheitlichen token-usage.jsonl-Datei protokolliert – unabhängig davon, ob Claude CLI, Copilot CLI oder Codex CLI verwendet wird. Jeder API-Call wird mit Input-Tokens, Output-Tokens, Cache-Read/Write-Tokens, Modell und Timestamp dokumentiert.

Workflows optimieren Workflows

Zwei automatisierte Prozesse überwachen die Token-Effizienz:

  • Daily Token Usage Auditor: Aggregiert den Token-Verbrauch und flaggt Workflows mit plötzlich steigenden Kosten oder anomalen Run-Patterns.
  • Daily Token Optimizer: Analysiert den Workflow-Source und erstellt konkrete Optimierungsvorschläge als GitHub Issues.

Beide sind selbst Agentic Workflows und erscheinen in den täglichen Reports – ein kleiner, aber effektiver Verbesserungszyklus.

Die größte Verschwendung: Unbenutzte MCP-Tools

Die häufigste Ineffizienz sind registrierte MCP-Tools, die nie aufgerufen werden. Ein GitHub MCP Server mit 40 Tools bläht jeden Request um 10-15 KB Schema auf. Wenn ein Agent nur zwei Tools nutzt, sind die anderen 38 reiner Overhead.

Lösung: Der Optimizer gleicht Tool-Manifeste mit tatsächlichen Tool-Calls ab und empfiehlt das Entfernen ungenutzter Tools. In Smoke-Tests reduzierte dies den Kontext pro Call um 8-12 KB.

GitHub CLI statt MCP für Datenabrufe

Noch effizienter: GitHub MCP durch gh CLI Commands ersetzen. Ein MCP-Tool-Call ist ein vollständiger LLM-Reasoning-Schritt mit Schema-, Argument- und Response-Tokens. Ein gh pr diff ist dagegen ein simpler API-Call ohne LLM-Beteiligung.

Zwei Strategien:

  1. Pre-Agentic Downloads: Daten, die der Agent immer braucht, werden vorab mit gh Commands geholt und als Workspace-Files bereitgestellt.
  2. CLI Proxy Substitution: Ein transparenter HTTP-Proxy routet CLI-Traffic zu GitHub’s API ohne Token-Exposure.

Effective Tokens – Ein einheitliches Kostenmaß

Nicht alle Tokens sind gleich. Claude Haiku kostet 4× weniger pro Token als Sonnet. Deshalb nutzt GitHub die Effective Tokens (ET)-Metrik:

ET = m × (1.0 × I + 0.1 × C + 4.0 × O)

Wobei m der Modell-Kosten-Multiplier ist (Haiku = 0.25×, Sonnet = 1.0×, Opus = 5.0×). Output-Tokens wiegen 4×, Cache-Reads nur 0.1×. Eine 10% ET-Reduktion bedeutet echte 10% Kostenersparnis – egal welches Modell.

Resultate in der Praxis

Die Optimierungen zeigten deutliche Wirkung:

  • Auto-Triage Issues: 62% weniger ET (6.8 Runs/Tag – hohe Frequenz lohnt sich)
  • Daily Compiler Quality: 19% Verbesserung
  • Security Guard: 43% Reduktion (läuft bei jedem PR)
  • Smoke Claude: 59% Verbesserung

Die wichtigsten Erkenntnisse

1. Viele Agent-Turns sind reine Datenbeschaffung Die größten Ersparnisse kommen, wenn ihr deterministische Reads aus dem LLM-Loop entfernt. Auto-Triage holte Issue-Metadaten und Label-Scans vorher per Agent – jetzt sind das Pre-Steps. Der günstigste LLM-Call ist der, den ihr nicht macht.

2. Ungenutzte Tools sind teurer Ballast Ein Workflow rief search_repositories 342× auf – völlig unnötig für einen Workflow, der nur lokale Files scannt. Der Optimizer schlug das Entfernen vor.

3. Eine fehlerhafte Regel kann Endlosschleifen auslösen Daily Syntax Error Quality war der teuerste Workflow vor der Korrektur: Ein Bash-Allowlist-Problem blockierte den Compiler-Aufruf. Der Agent fiel in eine 64-Turn Fallback-Schleife. Eine Einzeiler-Fix beendete den Loop.

Tools direkt nutzen

Die Optimierungs-Workflows könnt ihr direkt einbinden:

gh extensions install github/gh-aw
gh aw add githubnext/agentic-ops/copilot-token-audit githubnext/agentic-ops/copilot-token-optimizer

Damit habt ihr sofortige Sichtbarkeit in eure Token-Nutzung und kontinuierliche Optimierung.