Article

Trust Layer für Agenten: Validierung jenseits deterministischer Tests

CI/CD Coding-Agenten Testing Best-Practices

Wenn “korrekt” nicht mehr deterministisch ist

Moderne Software-Tests basieren auf einer Annahme: Korrektes Verhalten ist wiederholbar. Für autonome Agenten wie GitHub Copilot Coding Agent – besonders mit “Computer Use” – bricht diese Annahme fast sofort zusammen. Loading-Screens erscheinen oder verschwinden, Timings variieren, mehrere gültige Aktionsfolgen führen zum selben Ergebnis.

Ein Agent kann eine Aufgabe erfolgreich abschließen, während der Test trotzdem fehlschlägt – ein “False Negative”, der die Pipeline anhält.

Die drei Schmerzpunkte

Diese “Trust Gap” zwischen Agent-Output und Test-Erwartung manifestiert sich in drei wiederkehrenden Problemen:

  • False Negatives: Der Task war erfolgreich, aber der Test-Runner konnte die Variation nicht tolerieren.
  • Fragile Infrastructure: Tests scheitern wegen Timing, Rendering oder Environment-Noise, der mit Korrektheit nichts zu tun hat.
  • The Compliance Trap: Das Ergebnis ist korrekt, aber weil der Agent ein anderes Verhaltensmuster zeigte, wird ein Regression geflaggt.

Korrektheit verschiebt sich von “ist das passiert?” zu “was musste passieren, damit Erfolg real ist?”

Dominator Analysis als Lösung

Statt jeden Schritt zu skripten, definiert man Dominatoren – kritische Zustände, die für Erfolg nicht übersprungen werden können. Ein Dominator ist ein Beobachtungspunkt, der bestätigt: “Ohne diesen Zwischenschritt konnte der Task unmöglich erfolgreich sein.”

Das unterscheidet sich von Assertions. Assertions checken “ist X wahr?”. Dominatoren fragen “konnte der Agent ohne X erfolgreich sein?” Wenn die Antwort nein ist, dokumentiert ein erfolgreicher Dominator-Check den gesamten Pfad.

Implementierung im CI

Die Empfehlung: Eine unabhängige “Trust Layer” bauen, die nicht im selben Codebase wie die Agenten liegt. Die Trust Layer bekommt nur:

  • Den Anfangszustand
  • Den Endzustand
  • Eine Liste von Dominatoren

Sie validiert nicht, wie der Agent zum Ziel kam – nur, dass der Weg plausibel war. Das macht Tests robust gegen nicht-deterministische Agent-Pfade.

Link: GitHub Blog: Validating Agentic Behavior