Article

GitHub Copilot CLI: Rubber Duck gibt zweite Meinung von anderem Modell

GitHub Copilot Claude OpenAI KI-Tools

Cross-Family Model Review für bessere Code-Qualität

GitHub stellt mit “Rubber Duck” ein experimentelles Feature für die Copilot CLI vor, das Coding-Agenten automatisch durch ein zweites Modell aus einer anderen KI-Familie überprüfen lässt. Das Konzept: Wenn Claude der Orchestrator ist, fungiert GPT-5.4 als unabhängigerReviewer. Dieser Cross-Family-Ansatz fängt Fehler auf, die ein einzelnes Modell aufgrund seiner Training-Biases übersehen würde.

Warum zwei Modelle besser sind als eins

Coding-Agenten folgen einem klaren Loop: Aufgabe analysieren, Plan entwerfen, implementieren, testen, iterieren. Der Haken: Entscheidungen in der Planungsphase werden zum Fundament. Assumptionen und Ineffizienzen werden zu Abhängigkeiten, die erst spät auffallen. Selbst-Reflexion hilft, aber ein Modell, das seine eigene Arbeit reviewt, bleibt in seinen Training-Biases gefangen.

Rubber Duck bietet einen unvoreingenommenen zweiten Blick. Die Evaluierung auf SWE-Bench Pro zeigt: Claude Sonnet 4.6 mit Rubber Duck schließt 74,7% der Performance-Lücke zwischen Sonnet und Opus. Bei schwierigen Problemen (3+ Dateien, 70+ Schritte) steigt die Accuracy um 3,8-4,8%.

Die Fehler, die Rubber Duck findet

Drei konkrete Beispiele aus der Praxis: Ein Scheduler-Problem bei OpenLibrary wurde erkannt, bevor infinite loops implementiert wurden. Ein silently overwriting dict-Bug bei Solr wurde entdeckt, der drei von vier Facet-Kategorien droppen würde. Cross-File-Conflicts bei NodeBB wurden vor dem Commit identifiziert.

Das Feature ist in /experimental zu finden und repräsentiert einen wichtigen Schritt Richtung zuverlässigere Coding-Agenten.

Link: GitHub Blog