CHAOSNODE

Studie: LLMs verderben Dokumente bei delegierten Aufgaben

DELEGATE-52 Benchmark enthüllt systematische Degradation Forscher haben DELEGATE-52 eingeführt, einen Benchmark, der simuliert, wie LLMs Dokumente über lange Workflows bearbeiten. …

May 09, 2026

Subquadratic: 12 Millionen Token Kontext ohne quadratische Kosten

Die Context-Window-Revolution Die Aufmerksamkeitskosten bei Transformers skalieren quadratisch mit der Kontextlänge. Ein Start-up aus Miami behauptet nun, dieses fundamentale …

May 09, 2026

Warum Claude nicht erpresst: Antripics Durchbruch beim Alignment-Training

Sicherheitstrainings, die tatsächlich funktionieren Anthropic hat einen bedeutenden Fortschritt im KI-Sicherheitstraining erzielt: Seit Claude Haiku 4.5 erreicht jedes …

May 09, 2026

Warum Programmieren Theorie-Bilden ist – Ein verkannter Klassiker

Der vermisste Begriff Jani Hartikainen beschreibt seinen „Aha-Moment" beim Lesen von Peter Naurs Essay „Programming as Theory Building". Der dänische Informatiker prägte …

May 09, 2026

Agenten-PRs fluten GitHub: Richtig Reviewen trotz KI-Code

Über 60 Millionen Reviews hat GitHub Copilot bereits verarbeitet - mit 10x Wachstum in weniger als einem Jahr. Jeder fünfte Code-Review auf GitHub beinhaltet mittlerweile einen …

May 08, 2026

Agenten-Verhalten validieren ohne fragwürdige Tests

Moderne Softwaretests basieren auf der Annahme, dass korrektes Verhalten wiederholbar ist. Für deterministischen Code funktioniert das meist. Aber für autonome Agenten wie GitHub …

May 08, 2026

Google bündelt KI-Innovationen: Gemma 4 und Agent Platform

Im April 2026 hat Google eine Vielzahl an KI-Neuheiten angekündigt, die während des Cloud Next ‘26 Events präsentiert wurden. Im Mittelpunkt steht Gemma 4, das als das …

May 08, 2026

KI-Müll erstickt Online-Communitys

Robin Moffatt kritisiert in seinem Artikel den zunehmenden Einfluss von minderwertigen KI-generierten Inhalten auf technische Online-Communitys. Der Autor, selbst kein KI-Gegner, …

May 08, 2026

Token-Effizienz bei GitHub-Agenten: So senken Entwickler ihre API-Kosten

GitHub Agentic Workflows werden automatisch bei jedem Pull Request ausgeführt und können still Kosten ansammeln. Ein Team hat ihre eigenen Workflows systematisch optimiert und …

May 08, 2026

ASR Leaderboard: Schutz vor Benchmark-Gaming mit privaten Daten

Hugging Face erweitert den Open ASR Leaderboard um private Testdatensätze und schützt so vor Overfitting und Goodharts Gesetz. Kurzbeschreibung Der Open ASR Leaderboard nutzt nun …

May 08, 2026

Digitale Komplexität von Nationen: GitHub als Wirtschaftsindikator

Forscher haben GitHub-Daten genutzt, um die “digitale Komplexität” von Ländern zu messen und damit GDP, Ungleichheit und Umweltdaten vorherzusagen. Kurzbeschreibung Ein …

May 08, 2026

Gemini API Webhooks: Event-Driven für langlaufende Agenten

Google führt Webhooks für die Gemini API ein und eliminiert ineffizientes Polling bei langlaufenden Aufgaben. Kurzbeschreibung Event-Driven Webhooks informieren Entwickler …

May 08, 2026