Article
Forge: Agentische Zuverlässigkeit für lokale LLMs
Das Projekt
Ein Texas Instruments AI Director hat Forge veröffentlicht – einen Open-Source Reliability Layer für selbstgehostete LLM Tool-Calling mit einem bemerkenswerten Ergebnis: Ein 8B-Modell springt von 53% auf 99% Erfolg bei Multi-Step-Agenten-Workflows.
Das Problem
Bei 90% Genauigkeit pro Schritt liegt die Gesamterfolgsrate bei einem 5-Schritt-Workflow bei nur 60%. Jeder Schritt kumuliert Fehler. Lokale Modelle haben dieses Problem besonders – sie sind günstiger, aber weniger zuverlässig.
Die Lösung
Forge implementiert einen fünfstufigen Guardrail-Stack:
- Retry Nudges: automatische Wiederholungsversuche mit verbesserten Prompts
- Step Enforcement: Durchsetzung sequentieller Schritte
- Error Recovery: Behandlung von Fehlern und Recovery-Strategien
- Rescue Parsing: Robuste Extraktion aus fehlerhaften Outputs
- Context Compaction: intelligente Kontextreduktion für VRAM-Limits
Die Benchmarks
Der Paper (akzeptiert bei ACM CAIS ‘26) zeigt beeindruckende Zahlen:
- Ministral 8B mit Forge: 99,3% vs ohne: ~53%
- Claude Sonnet mit Forge: 100% vs ohne: 87,2%
- Der 8B-Modell mit Framework übertrifft Claude ohne Guardrails!
Das überraschende Ergebnis
Der Serving-Backend macht einen massiven Unterschied:
- Dasselbe Mistral-Nemo 12B: 7% auf llama-server vs 83% auf Llamafile
- Ein 75-Punkte-Unterschied allein durch die Infrastruktur
Neue Exception-Klasse
Forge führt ToolResolutionError ein – der Unterschied zwischen “Tool lief erfolgreich Daten” und “Tool fand nichts”. Bevor waren diese Fälle identisch, jetzt kann das Modell differenzieren und retry-en.
Nutzung
Der Proxy-Server-Mode erlaubt透明的 Integration mit jedem OpenAI-kompatiblen Client. Forge übernimmt die Guardrails im Hintergrund.