Article

Forge: Agentische Zuverlässigkeit für lokale LLMs

May 21, 2026

Das Projekt

Ein Texas Instruments AI Director hat Forge veröffentlicht – einen Open-Source Reliability Layer für selbstgehostete LLM Tool-Calling mit einem bemerkenswerten Ergebnis: Ein 8B-Modell springt von 53% auf 99% Erfolg bei Multi-Step-Agenten-Workflows.

Das Problem

Bei 90% Genauigkeit pro Schritt liegt die Gesamterfolgsrate bei einem 5-Schritt-Workflow bei nur 60%. Jeder Schritt kumuliert Fehler. Lokale Modelle haben dieses Problem besonders – sie sind günstiger, aber weniger zuverlässig.

Die Lösung

Forge implementiert einen fünfstufigen Guardrail-Stack:

Retry Nudges: automatische Wiederholungsversuche mit verbesserten Prompts
Step Enforcement: Durchsetzung sequentieller Schritte
Error Recovery: Behandlung von Fehlern und Recovery-Strategien
Rescue Parsing: Robuste Extraktion aus fehlerhaften Outputs
Context Compaction: intelligente Kontextreduktion für VRAM-Limits

Die Benchmarks

Der Paper (akzeptiert bei ACM CAIS ‘26) zeigt beeindruckende Zahlen:

Ministral 8B mit Forge: 99,3% vs ohne: ~53%
Claude Sonnet mit Forge: 100% vs ohne: 87,2%
Der 8B-Modell mit Framework übertrifft Claude ohne Guardrails!

Das überraschende Ergebnis

Der Serving-Backend macht einen massiven Unterschied:

Dasselbe Mistral-Nemo 12B: 7% auf llama-server vs 83% auf Llamafile
Ein 75-Punkte-Unterschied allein durch die Infrastruktur

Neue Exception-Klasse

Forge führt ToolResolutionError ein – der Unterschied zwischen “Tool lief erfolgreich Daten” und “Tool fand nichts”. Bevor waren diese Fälle identisch, jetzt kann das Modell differenzieren und retry-en.

Nutzung

Der Proxy-Server-Mode erlaubt透明的 Integration mit jedem OpenAI-kompatiblen Client. Forge übernimmt die Guardrails im Hintergrund.

Originalartikel