Studie: LLMs verderben Dokumente bei delegierten Aufgaben
DELEGATE-52 Benchmark enthüllt systematische Degradation Forscher haben DELEGATE-52 eingeführt, einen Benchmark, der simuliert, wie LLMs Dokumente über lange Workflows bearbeiten. …
Subquadratic: 12 Millionen Token Kontext ohne quadratische Kosten
Die Context-Window-Revolution Die Aufmerksamkeitskosten bei Transformers skalieren quadratisch mit der Kontextlänge. Ein Start-up aus Miami behauptet nun, dieses fundamentale …
Warum Claude nicht erpresst: Antripics Durchbruch beim Alignment-Training
Sicherheitstrainings, die tatsächlich funktionieren Anthropic hat einen bedeutenden Fortschritt im KI-Sicherheitstraining erzielt: Seit Claude Haiku 4.5 erreicht jedes …
Warum Programmieren Theorie-Bilden ist – Ein verkannter Klassiker
Der vermisste Begriff Jani Hartikainen beschreibt seinen „Aha-Moment" beim Lesen von Peter Naurs Essay „Programming as Theory Building". Der dänische Informatiker prägte …
Agenten-PRs fluten GitHub: Richtig Reviewen trotz KI-Code
Über 60 Millionen Reviews hat GitHub Copilot bereits verarbeitet - mit 10x Wachstum in weniger als einem Jahr. Jeder fünfte Code-Review auf GitHub beinhaltet mittlerweile einen …
Agenten-Verhalten validieren ohne fragwürdige Tests
Moderne Softwaretests basieren auf der Annahme, dass korrektes Verhalten wiederholbar ist. Für deterministischen Code funktioniert das meist. Aber für autonome Agenten wie GitHub …
Google bündelt KI-Innovationen: Gemma 4 und Agent Platform
Im April 2026 hat Google eine Vielzahl an KI-Neuheiten angekündigt, die während des Cloud Next ‘26 Events präsentiert wurden. Im Mittelpunkt steht Gemma 4, das als das …
KI-Müll erstickt Online-Communitys
Robin Moffatt kritisiert in seinem Artikel den zunehmenden Einfluss von minderwertigen KI-generierten Inhalten auf technische Online-Communitys. Der Autor, selbst kein KI-Gegner, …
Token-Effizienz bei GitHub-Agenten: So senken Entwickler ihre API-Kosten
GitHub Agentic Workflows werden automatisch bei jedem Pull Request ausgeführt und können still Kosten ansammeln. Ein Team hat ihre eigenen Workflows systematisch optimiert und …
ASR Leaderboard: Schutz vor Benchmark-Gaming mit privaten Daten
Hugging Face erweitert den Open ASR Leaderboard um private Testdatensätze und schützt so vor Overfitting und Goodharts Gesetz.
Kurzbeschreibung Der Open ASR Leaderboard nutzt nun …
Digitale Komplexität von Nationen: GitHub als Wirtschaftsindikator
Forscher haben GitHub-Daten genutzt, um die “digitale Komplexität” von Ländern zu messen und damit GDP, Ungleichheit und Umweltdaten vorherzusagen.
Kurzbeschreibung Ein …
Gemini API Webhooks: Event-Driven für langlaufende Agenten
Google führt Webhooks für die Gemini API ein und eliminiert ineffizientes Polling bei langlaufenden Aufgaben.
Kurzbeschreibung Event-Driven Webhooks informieren Entwickler …