Article

Forge: Agentische Zuverlässigkeit für lokale LLMs

Das Projekt

Ein Texas Instruments AI Director hat Forge veröffentlicht – einen Open-Source Reliability Layer für selbstgehostete LLM Tool-Calling mit einem bemerkenswerten Ergebnis: Ein 8B-Modell springt von 53% auf 99% Erfolg bei Multi-Step-Agenten-Workflows.

Das Problem

Bei 90% Genauigkeit pro Schritt liegt die Gesamterfolgsrate bei einem 5-Schritt-Workflow bei nur 60%. Jeder Schritt kumuliert Fehler. Lokale Modelle haben dieses Problem besonders – sie sind günstiger, aber weniger zuverlässig.

Die Lösung

Forge implementiert einen fünfstufigen Guardrail-Stack:

  • Retry Nudges: automatische Wiederholungsversuche mit verbesserten Prompts
  • Step Enforcement: Durchsetzung sequentieller Schritte
  • Error Recovery: Behandlung von Fehlern und Recovery-Strategien
  • Rescue Parsing: Robuste Extraktion aus fehlerhaften Outputs
  • Context Compaction: intelligente Kontextreduktion für VRAM-Limits

Die Benchmarks

Der Paper (akzeptiert bei ACM CAIS ‘26) zeigt beeindruckende Zahlen:

  • Ministral 8B mit Forge: 99,3% vs ohne: ~53%
  • Claude Sonnet mit Forge: 100% vs ohne: 87,2%
  • Der 8B-Modell mit Framework übertrifft Claude ohne Guardrails!

Das überraschende Ergebnis

Der Serving-Backend macht einen massiven Unterschied:

  • Dasselbe Mistral-Nemo 12B: 7% auf llama-server vs 83% auf Llamafile
  • Ein 75-Punkte-Unterschied allein durch die Infrastruktur

Neue Exception-Klasse

Forge führt ToolResolutionError ein – der Unterschied zwischen “Tool lief erfolgreich Daten” und “Tool fand nichts”. Bevor waren diese Fälle identisch, jetzt kann das Modell differenzieren und retry-en.

Nutzung

Der Proxy-Server-Mode erlaubt透明的 Integration mit jedem OpenAI-kompatiblen Client. Forge übernimmt die Guardrails im Hintergrund.

Originalartikel