Article
GitHub Copilot CLI: Rubber Duck gibt zweite Meinung von anderem Modell
Cross-Family Model Review für bessere Code-Qualität
GitHub stellt mit “Rubber Duck” ein experimentelles Feature für die Copilot CLI vor, das Coding-Agenten automatisch durch ein zweites Modell aus einer anderen KI-Familie überprüfen lässt. Das Konzept: Wenn Claude der Orchestrator ist, fungiert GPT-5.4 als unabhängigerReviewer. Dieser Cross-Family-Ansatz fängt Fehler auf, die ein einzelnes Modell aufgrund seiner Training-Biases übersehen würde.
Warum zwei Modelle besser sind als eins
Coding-Agenten folgen einem klaren Loop: Aufgabe analysieren, Plan entwerfen, implementieren, testen, iterieren. Der Haken: Entscheidungen in der Planungsphase werden zum Fundament. Assumptionen und Ineffizienzen werden zu Abhängigkeiten, die erst spät auffallen. Selbst-Reflexion hilft, aber ein Modell, das seine eigene Arbeit reviewt, bleibt in seinen Training-Biases gefangen.
Rubber Duck bietet einen unvoreingenommenen zweiten Blick. Die Evaluierung auf SWE-Bench Pro zeigt: Claude Sonnet 4.6 mit Rubber Duck schließt 74,7% der Performance-Lücke zwischen Sonnet und Opus. Bei schwierigen Problemen (3+ Dateien, 70+ Schritte) steigt die Accuracy um 3,8-4,8%.
Die Fehler, die Rubber Duck findet
Drei konkrete Beispiele aus der Praxis: Ein Scheduler-Problem bei OpenLibrary wurde erkannt, bevor infinite loops implementiert wurden. Ein silently overwriting dict-Bug bei Solr wurde entdeckt, der drei von vier Facet-Kategorien droppen würde. Cross-File-Conflicts bei NodeBB wurden vor dem Commit identifiziert.
Das Feature ist in /experimental zu finden und repräsentiert einen wichtigen Schritt Richtung zuverlässigere Coding-Agenten.
Link: GitHub Blog