Models on CHAOSNODE

Google KI-Updates im Mai 2026: Gemini 3.5 und Omni

Fri, 05 Jun 2026 00:00:00 +0000

Der Mai 2026 war vollgepackt mit KI-Ankündigungen von Google. Die Google I/O markierte den Eintritt in die “Agentic Gemini Ära” mit Gemini 3.5 und Gemini Omni.

Gemini 3.5: Agentische Intelligenz

Die neueste Modellfamilie kombiniert Frontier-Intelligenz mit Aktionsfähigkeit. Gemini 3.5 soll komplexe, mehrstufige Workflows über Apps hinweg zuverlässig ausführen - nicht nur Antworten generieren, sondern Aufgaben erledigen.

Gemini Omni: Multimodale Erstellung

Omni kann aus jeder Kombination von Bildern, Audio, Video und Text hochwertige Videos erstellen - basierend auf Gemini’s Weltwissen. Ein Sprung von reiner Analyse zu echter Erstellung.

EVA-Bench Data 2.0: Agenten-Benchmark mit 213 Szenarien

Thu, 04 Jun 2026 00:00:00 +0000

ServiceNow AI veröffentlicht EVA-Bench Data 2.0, ein umfassender Benchmark für AI-Agenten mit 3 Domains, 121 Tools, 213 Szenarien – realistische Multi-Step-Workflows zur Evaluation von Tool-Use und Reasoning.

Was misst EVA-Bench?

Agenten-Benchmarks sind oft zu abstrakt. EVA-Bench testet mit echten Enterprise-Workflows:

3 Domains: Service Management, HR Operations, IT Operations
121 Tools: APIs, Datenbanken, externe Services
213 Szenarien: Multi-step Tasks mit Dependencies

Jedes Szenario hat:

Natural Language Prompt
Tool-Definitionen
Erwarteter Success-Path
Ground-Truth-Outputs

Warum relevant?

Die meisten Agenten-Benchmarks (WebShop, Mind2Web) focusieren auf Web-Interaktion. EVA-Bench bringt Enterprise-Tool-Orchestration in den Fokus:

Gemma 4 12B: Encoder-freies multimodales Modell für Laptops

Thu, 04 Jun 2026 00:00:00 +0000

Google DeepMind veröffentlicht Gemma 4 12B, ein multimodales Modell mit encoder-freier Unified-Transformer-Architektur, das auf Laptops mit nur 16GB VRAM/Unified Memory läuft.

Architektur-Revolution

Traditionelle multimodale Modelle nutzen separate Encoder für Bild und Audio, dann einen Language Model Backbone. Gemma 4 12B bricht damit: Vision- und Audio-Inputs fließen direkt in den LLM-Backbone – keine Encoder-Zwischenschicht, weniger Overhead, weniger Latenz.

Das ist Googles erstes mid-sized Modell mit nativen Audio-Inputs.

Performance & Hardware

Benchmark-Ergebnisse nähern sich dem größeren 26B MoE-Modell bei weniger als halbem Memory-Footprint. Das Modell positioniert sich zwischen:

hf CLI: 6x weniger Tokens für Coding Agents

Thu, 04 Jun 2026 00:00:00 +0000

Hugging Face überarbeitet die hf CLI für Coding Agents. Das Ergebnis: Bei komplexen Multi-Step-Tasks verbrauchen Agents mit CLI 6x weniger Tokens als curl/SDK-Baselines.

Agent-Traffic auf dem Hub

Seit April 2026 trackt HF Agent-Usage via Environment-Variables:

CLAUDECODE/CLAUDE_CODE für Claude Code
CODEX_SANDBOX für Codex
Plus Cursor, Gemini, Pi, und universell AI_AGENT

Leaderboard (Distinct Users):

Claude Code: 39.5k Users, 48.6M Requests
Codex: 34.8k Users, 36.4M Requests
weite Lücke zu antigravity, cursor-cli, openclaw…

Claude Code + Codex dominieren die Agenten-Interaktion mit dem Hub.

KVarN: Native vLLM KV-Cache Quantisierung mit 3-5x mehr Kontext

Thu, 04 Jun 2026 00:00:00 +0000

Huawei veröffentlicht KVarN, einen nativen KV-Cache-Quantisierungs-Backend für vLLM, der 3-5x mehr KV-Cache-Kapazität bietet – bei FP16-Genauigkeit und sogar höherem Durchsatz als Full-Precision.

Das Problem

KV-Cache-Quantisierung ist ein Kompromiss. Bestehende Methoden wie TurboQuant gewinnen zwar Kapazität (2.3-3.7x), verlieren aber 40-52% Durchsatz und opfern Genauigkeit bei aggressiven Low-Bit-Raten. Für Produktionseinsätze unbrauchbar.

KVarNs Lösung

Die varianz-normalisierte Quantisierung nutzt eine vierschrittige Pipeline pro Tile:

Cache: Raw fp16 KV-Tile aus Attention
Rotated Cache: Hadamard-Rotation verteilt Outlier kanalübergreifend
Normalized Cache: Iterative Varianz-Normalisierung (Sinkhorn-artig) gleicht Varianz aus
Quantized Cache: Asymmetrisches Round-to-Nearest mit 4-bit Keys, 2-bit Values

Das Resultat: Oberes rechtes Viertel der Pareto-Front, wo andere Methoden nicht hinkommen – FP16-Genauigkeit und FP16-Durchsatz und mehrfacher Kontext.

Nemotron 3.5 ASR: Multilingual Speech-to-Text für 40 Sprachen

Thu, 04 Jun 2026 00:00:00 +0000

NVIDIA veröffentlicht Nemotron 3.5 ASR streaming multilingual, ein 600M-Parameter Speech-to-Text-Modell, das 40 Language-Locales aus einem einzigen Checkpoint in Echtzeit transkribiert – mit integrierter Interpunktion und Groß-/Kleinschreibung.

Performance-Positionierung

Der Nachfolger des beliebten Nemotron 3 ASR (nur Englisch) erreicht bei Artificial Analysis:

Platz 2 bei Latency unter allen Streaming-ASR-Modellen
0.07 Sekunden bis Final Transcript nach Sprachende
“Most attractive quadrant” im AA-WER Streaming Index vs. Time to Final Transcription

Architektur

Cache-Aware FastConformer-RNNT mit einzigartigem Streaming: Audio wird ohne redundante Neuberechnung gestreamt (bei den meisten Streaming-ASR der Bottleneck). Das Resultat: Low Latency AND High Accuracy, kein Tradeoff.

DPO Beyond Chatbots: Wenn Modelle aus Fehlern lernen

Wed, 03 Jun 2026 18:00:00 +0000

Direct Preference Optimization (DPO) wird meistens für Chat-Alignment eingesetzt – aber DharmaAI zeigt mit DharmaOCR, dass DPO auch für strukturierte OCR-Tasks funktioniert. Der entscheidende Punkt: Anstatt subjektive menschliche Bewertungen zu nutzen, verwendet DharmaOCR ein binäres Signal aus dem Model selbst – korrekte Transkription gewählt, Degeneration-Schleife verworfen.

Die Ergebnisse sprechen für sich: DPO reduzierte die Text-Degeneration in allen getesteten Modellfamilien – durchschnittlich um 59,4%, im besten Fall um 87.6% (Nanonets-OCR2-3B: von 1.61% auf 0.20%). Warum SFT allein eine Ceiling hat? SFT trainiert token-weise, aber Degeneration ist ein Completion-Level-Fehler – das Model sieht nie die Schleife als Ganzes als “falsch” markiert. DPO dreht diese Logik um: Das Training-Signal ist der komplette Output.

MCP Tools für Reachy Mini: Robot-Fähigkeiten via Hugging Face Spaces

Wed, 03 Jun 2026 18:00:00 +0000

Der Reachy Mini Roboter kann jetzt Tools nutzen, die in öffentlichen Hugging Face Spaces gehostet werden – aufgerufen via MCP (Model Context Protocol). Statt Code lokal zu bearbeiten, genügt ein Befehl: reachy-mini-conversation-app tool-spaces add pollen-robotics/reachy-mini-weather-tool und der Roboter kann Wetter abrufen. Das Tool läuft im Space, nichts wird heruntergeladen.

Die Architektur nutzt Profile zur Zugriffskontrolle: instructions.txt definiert den Prompt, tools.txt listet die aktivierten Tools. Jedes Tool hat einen Namen und eine Beschreibung – das Model entscheidet, wann es nützlich ist, ruft es auf und nutzt das Ergebnis. Eingebaute Tools steuern den Roboter-Körper: move_head, dance, play_emotion, camera, head_tracking.

MAI-Code-1-Flash: Microsofts neues Coding-Modell

Wed, 03 Jun 2026 06:00:00 +0000

Microsoft führt MAI-Code-1-Flash ein – ein effizientes Coding-Modell, das speziell für GitHub Copilot optimiert ist. Das Besondere: Es wurde direkt mit den Copilot-Harnesses aus der Produktion trainiert, nicht nur für Benchmarks. Das Modell passt seine Antwortlänge adaptiv an: bei einfachen Queries bleibt es kurz, bei komplexen Aufgaben investiert es mehr Reasoning-Budget.

Die Benchmarks zeigen beeindruckende Ergebnisse: Auf SWE-Bench Pro erreicht MAI-Code-1-Flash 51,2% – ein +16 Punkte Vorsprung gegenüber Claude Haiku 4.5 bei 35,2%. Noch bemerkenswerter: Es löst härtere Probleme mit bis zu 60% weniger Token, was die Kosten drastisch senkt und die Latenz in interaktiven Workflows verbessert.

Holo3.1: Schnelle lokale Computer-Use-Agenten

Tue, 02 Jun 2026 00:00:00 +0000

H Company hat Holo3.1 veröffentlicht, eine Familie von Computer-Use-Modellen, die sich durch verbesserte Robustheit über verschiedene Umgebungen hinweg auszeichnet. Neu sind quantisierte Checkpoints für lokale Inferenz, darunter FP8, Q4 GGUF und NVFP4 Formate.

Die Modelle basieren auf der Qwen-Familie und unterstützen nun erstmals Mobile-Automatisierung. Auf AndroidWorld verbesserte sich das 35B-A3B Modell von 67% auf 79,3% Erfolgsrate. Die kleineren 4B und 9B Varianten steigerten sich ebenfalls signifikant von 58% auf 72%.

Delta Weight Sync: Wie TRL die Bandbreite beim asynchronen RL reduziert

Mon, 01 Jun 2026 00:00:00 +0000

Asynchrones Reinforcement Learning mit großen Sprachmodellen steht vor einem fundamentalen Problem: Bei jedem Trainingsschritt müssen aktualisierte Gewichte übertragen werden.

Kurzbeschreibung

HuggingFace stellt mit Delta Weight Sync eine elegante Lösung vor, die die Datentransfers drastisch reduziert – von Gigabytes zu Megabytes.

Abstract

Bei asynchronem Reinforcement Learning mit großen Sprachmodellen müssen bei jedem Trainingsschritt die aktualisierten Modellgewichte vom Trainer zur Inference-Engine übertragen werden. Bei modernen Modellen bedeutet das Gigabytes an Daten, während die Inference-Engine wartet und wertvolle GPU-Rechenzeit verstreicht.

Gemini Omni und Gemini 3.5 Flash: Googles neue KI-Generation

Mon, 01 Jun 2026 00:00:00 +0000

Auf der Google I/O 2026 präsentierte das Unternehmen zwei bahnbrechende KI-Modelle, die unterschiedliche Schwerpunkte setzen.

Kurzbeschreibung

Google führt mit Gemini Omni und 3.5 Flash zwei neue Modelle ein: eines für kreative Videobearbeitung und eines für agentische Workflows.

Abstract

Gemini Omni ist ein multimodales Modell, das aus beliebigen Eingaben – Bilder, Audio, Video und Text – hochwertige Videos erstellen kann. Besonders beeindruckend ist die Fähigkeit zur konversationellen Videobearbeitung: Charaktere bleiben konsistent, die Physik stimmt, und Szenen erinnern sich an vorherige Anweisungen. Die Demos zeigen Transformationen von Skulpturen aus Seifenblasen und rekursive Videoeffekte.

ITBench-AA: Enterprise-IT-Benchmark zeigt Schwächen aller KI-Modelle

Mon, 01 Jun 2026 00:00:00 +0000

Künstliche Intelligenz revolutioniert Unternehmen, aber wie gut schlagen sich KI-Agenten bei echten IT-Aufgaben? Ein neuer Benchmark liefert überraschende Ergebnisse.

Kurzbeschreibung

Artificial Analysis und IBM stellen mit ITBench-AA den ersten Benchmark für agentische Enterprise-IT-Aufgaben vor – mit dem ernüchternden Ergebnis, dass kein Modell die 50%-Hürde erreicht.

Abstract

ITBench-AA ist ein bahnbrechender Benchmark, der speziell für komplexe Enterprise-IT-Aufgaben entwickelt wurde. Die initiale Version konzentriert sich auf Site Reliability Engineering (SRE), wobei Modelle Kubernetes-Incident-Snapshots analysieren und Root Causes identifizieren müssen. Insgesamt 59 Aufgaben – 40 öffentliche und 19 held-out – decken typische Fehlermodi wie Ressourcenquoten-Erschöpfung, Rollout-Fehler, Connection-Pool-Probleme und Netzwerkpartitionen ab.

Mellum2: JetBains effizientes Mixture-of-Experts Modell

Mon, 01 Jun 2026 00:00:00 +0000

Mellum2 ist ein neuer Open-Source-Sprachmodell von JetBrains, der sich durch eine innovative Mixture-of-Experts-Architektur auszeichnet. Mit insgesamt 12 Milliarden Parametern aktiviert das Modell pro Token nur 2,5 Milliarden Parameter, was eine aussergewoehnlich effiziente Inferenz ermoeglicht. Diese Architektur macht Mellum2 besonders geeignet fuer Latenz-sensitive Anwendungen wie Routing, RAG-Pipelines, Zusammenfassungen und Sub-Agenten in KI-Systemen.

Anders als multimodale Modelle konzentriert sich Mellum2 bewusst auf Text- und Code-Aufgaben, was es kompakt und effizient fuer Software-Engineering-Workloads macht. In Benchmarks zeigt das Modell wettbewerbsfaehige Leistung bei Code-Generierung, Reasoning, Wissenschaft und Mathematik – jedoch mit mehr als doppelter Inferenz-Geschwindigkeit im Vergleich zu aehnlich grossen Modellen.

PyTorch Profiler verstehen: Der erste Schritt zur Optimierung

Mon, 01 Jun 2026 00:00:00 +0000

Wer KI-Modelle optimieren will, muss sie zuerst verstehen lernen. HuggingFace veröffentlichte eine mehrteilige Serie über PyTorch Profiling und beginnt mit den Grundlagen.

Kurzbeschreibung

Der erste Teil der Serie führt durch torch.profiler und zeigt, wie man Performance-Engpässe in PyTorch-Modellen identifiziert.

Abstract

Performance-Optimierung ohne Profiling ist wie im Dunkeln suchen. HuggingFace startet deshalb eine Serie, die das häufig vernachlässigte Thema Profiling systematisch aufrollt. Der erste Teil beginnt dabei nicht mit komplexen LLMs, sondern mit der einfachsten Operation: einer Matrix-Multiplikation gefolgt von einem Bias-Add.

Reachy Mini: Open-Source-Robotik goes lokal

Mon, 01 Jun 2026 00:00:00 +0000

Open-Source-Robotik erreicht einen neuen Meilenstein: Reachy Mini kann vollständig lokal betrieben werden.

Kurzbeschreibung

HuggingFace zeigt, wie Reachy Mini ohne Cloud-Abhängigkeit für Konversationen eingesetzt werden kann – komplett lokal mit Open-Source-Komponenten.

Abstract

Reachy Mini ist ein Open-Source-Roboter, der für Bildungs- und Forschungszwecke entwickelt wurde. Die neuste Entwicklungsstufe macht den Roboter vollständig unabhängig von Cloud-Diensten. Alle Konversationen können lokal durchgeführt werden, ohne dass Daten an externe Server gesendet werden müssen.

Die lokale Implementation nutzt eine Kombination aus Open-Source-Komponenten: ein lokales Speech-to-Text-Modell, ein Large Language Model für die Konversationslogik und ein Text-to-Speech-System für die Audio-Ausgabe. Der gesamte Stack läuft auf Hardware, die im Roboter oder auf einem lokalen Server installiert ist.

Harness, Scaffold und Agents – Eine Begriffsklaerung

Sun, 31 May 2026 00:00:00 +0000

Kurzfassung

In der schnelllebigen Welt der KI-Agenten verschwimmen die Begriffe. Hugging Face liefert ein praxisorientiertes Glossar fuer Harness, Scaffold, Context Engineering und mehr.

Abstract

Nach der ICLR 2026 fiel auf: Selbst Experten sind sich uneinig ueber grundlegende Begriffe. “Was meinst du mit Harness und Scaffold im Kontext von Agenten?” Die Antworten waren widersprüchlich.

Dieser Artikel klaert die Terminologie. Das Kernkonzept ist einfach: Model + Harness = Agent. Das Model (Claude, GPT, Qwen) produziert Text. Das Harness ist alles drumherum – die Ausfuehrungsschleife, die Tool-Calls verarbeitet und entscheidet, wann der Agent stoppt.

NVIDIA Nemotron Diffusion – Token-Parallel statt Autoregressiv

Sun, 31 May 2026 00:00:00 +0000

Kurzfassung

Autoregressive Modelle generieren Token fuer Token – ein Flaschenhals. NVIDIAs Nemotron-Labs Diffusion bricht dieses Muster und generiert mehrere Token parallel mit iterativer Verfeinerung.

Abstract

Grosse Sprachmodelle sind autoregressiv: Jeder Token haengt von den vorherigen ab. Das funktioniert gut, hat aber einen fundamentalen Nachteil – vollstaendige Modelldurchlaeufe fuer jeden einzelnen Token. Speicherbandbreite, nicht Rechenleistung, ist der Flaschenhals.

Nemotron-Labs Diffusion geht einen anderen Weg. Die Modelle (3B, 8B, 14B) generieren mehrere Token gleichzeitig und verfeinern sie iterativ. Das hat drei Vorteile:

Rotary GPU: Lokale Ausfuehrung grosser MoE-Modelle

Sun, 31 May 2026 00:00:00 +0000

Rotary GPU ist ein innovativer Ansatz zur lokalen Ausführung großer Mixture-of-Experts (MoE) Modelle unter begrenzten GPU-Ressourcen. Die Forschung stellt nicht die Skalierung von Sprachmodellen in Frage, sondern widmet sich einer praktischen Herausforderung: Wie können existierende große Modelle für Nutzer zugänglich werden, die keine Rechenzentrums-Infrastruktur besitzen?

Das Paper präsentiert Rotary GPU, einen explorativen Ausführungsansatz, der auf einem rotierenden Beschleuniger-Residenz-Konzept basiert. Zur Validierung wurde ein Qwen3.6-35B-A3B MoE-Modell auf einem Consumer-Laptop mit einer RTX 4060 Laptop GPU (8 GB VRAM) ausgeführt. Unter der primären Konfiguration generierte das System 2048 Output-Token bei lediglich 6,3 GB VRAM-Nutzung und erreichte eine Decode-Throughput-Rate von 21,06 Token pro Sekunde.

Gemini 3.5 Flash: Googles neue Frontier für Agenten und Coding

Sat, 30 May 2026 00:00:00 +0000

Die agentische Gemini-Ära beginnt

Auf der Google I/O 2026 kündigte Sundar Pichai die Gemini 3.5-Modellfamilie an. Der Start erfolgt mit Gemini 3.5 Flash – einem Modell, das speziell für agentic Workflows und komplexe Langzeit-Aufgaben optimiert ist.

Im Zentrum: Token im Maßstab

Die Zahlen sprechen für sich:

3,2+ Quadrillionen Token pro Monat – ein 7x-Wachstum gegenüber dem Vorjahr
8,5 Millionen Entwickler bauen monatlich mit Googles Modellen
19 Milliarden Token pro Minute werden über die APIs verarbeitet

Was bietet Gemini 3.5 Flash?

Laut Google ist 3.5 Flash:

Nemotron-Labs Diffusion Sprachmodelle für schnelle Textgeneration

Sat, 30 May 2026 00:00:00 +0000

Traditionelle Large Language Models generieren Text autoregressiv. Nvidias Nemotron-Labs zeigt einen radikal anderen Ansatz: Diffusionsmodelle für Text.

Was sind Diffusion Language Models?

Diffusionsmodelle wurden ursprünglich für Bildgenerierung entwickelt. Nemotron überträgt dieses Konzept auf Text:

Iteratives Verfeinern statt Token-für-Token
Parallel Processing aller Tokens
Kontrollierbare Balance zwischen Qualität und Geschwindigkeit

Geschwindigkeits-Vorteile

Der Ansatz ermöglicht massive Parallelisierung. Alle Tokens werden gleichzeitig verfeinert. Dadurch skaliert die Generierung besser mit GPU-Parallelität.

Benchmarks zeigen: Nemotron erreicht 500-2000 Tokens pro Sekunde bei vergleichbarer Qualität zu autoregressiven Modellen (50-200 T/s).

TRL Hub Bucket - Billionen Parameter effizient synchronisieren

Sat, 30 May 2026 00:00:00 +0000

Das Training von Modellen mit einer Billion Parametern stellt infrastrukturelle Herausforderungen. TRL und Hugging Face zeigen eine elegante Loesung.

Das Problem mit riesigen Checkpoints

Ein Standard-Checkpoint eines Billion-Parameter-Modells benoetigt 4 TB Speicher. Bei Multi-Node-Training wird dies unpraktikabel.

Die Loesung: Delta-Gewicht-Synchronisation

Statt komplette Checkpoints zu uebertragen, synchronisiert TRL nur die Deltas. Die meisten Gewicht-Aenderungen pro Trainingsschritt sind minimal.

Hub Bucket: Die Cloud-Integration

Das neue Hub Bucket Feature auf Hugging Face bietet:

Granite 4.1: IBMs Antwort auf effiziente LLMs

Fri, 29 May 2026 00:00:00 +0000

IBM hat mit Granite 4.1 eine Familie von Sprachmodellen veröffentlicht, die beweist, dass Qualität nicht zwingend massive Parameterzahlen erfordert. Die Modelle kommen in drei Größen: 3B, 8B und 30B Parameter, alle als reine Dense-Architekturen ohne Mixture-of-Experts. Die 8B-Instruct-Variante erreicht oder übertrifft dabei die Leistung des deutlich größeren Granite 4.0-H-Small (32B), was die Effizienz der neuen Architektur unterstreicht.

Training-Technisch setzt IBM auf einen mehrstufigen Pre-Training-Prozess über fünf Phasen mit insgesamt 15 Billionen Token. Die Datenqualität steht über der Quantität – jedes Tokensegment wird kuratiert. Grouped Query Attention (GQA) reduziert den Speicherbedarf bei Inferenz, während RoPE-Positionsembeddings ein Kontextfenster von bis zu 512.000 Token ermöglichen. SwiGLU-Aktivierungen und RMSNorm vervollständigen die moderne Architektur.

KI-Agenten-Wörterbuch: Die Begriffe, die zählen

Fri, 29 May 2026 00:00:00 +0000

Die Welt der KI-Agenten entwickelt sich schneller als ihr gemeinsames Vokabular. Begriffe verschwimmen, werden in verschiedenen Kontexten unterschiedlich verwendet oder verschwinden nach wenigen Monaten stillschweigend. Hugging Face hat diesen Missstand mit einem umfassenden Glossar angegangen, das die wichtigsten Konzepte klar definiert – nicht als endgültige Wahrheit, sondern als praktisches mentales Modell für produktive Diskussionen.

Der “Model”-Begriff ist der Fundamentale: ein vortrainiertes neuronales Netz wie Llama oder GPT, das Token in Token transformiert. “Scaffolding” bezeichnet die äußere Struktur, die ein Basis-Modell mit Werkzeugen und Kontext versieht – über system prompts, Dokumentation und API-Integrationen. Der “Harness” ist die technische Implementierung, die das Gerüst zum Laufen bringt: Zustandsmanagement, Tool-Ausführung und Validierung. Ein “Agent” entsteht, wenn alle Komponenten zusammenkommen und autonom agiert.

PyTorch Profiler verstehen: Performance-Engpässe beim Machine-Learning-Training aufdecken

Fri, 29 May 2026 00:00:00 +0000

Kurzbeschreibung

Was Sie nicht profilieren können, können Sie nicht optimieren. Dieser Artikel führt in die Grundlagen von torch.profiler ein und zeigt, wie Entwickler Engpässe im Training systematisch aufdecken können.

Einleitung

Ob Sie mehr Token pro Sekunde aus einem Large Language Model herausholen, Millisekunden bei der Inferenz sparen oder verstehen wollen, warum Ihr Training langsamer läuft als erwartet – der Weg führt zwangsläufig über Profiling. Die Herausforderung: Profiling hat eine steile Lernkurve. Profiler-Traces sind dichte Wände aus farbigen Rechtecken, die Events tragen einschüchternde Namen, und die meisten Tutorials setzen voraus, dass man sie bereits lesen kann.

Ettin Reranker: State-of-the-Art Reranking

Thu, 28 May 2026 08:00:00 +0200

Tom Aarsen hat auf dem Hugging Face Blog die Ettin Reranker-Familie vorgestellt – sechs neue Cross-Encoder-Reranker, die State-of-the-Art-Performance bei ihren jeweiligen Modellgrößen liefern. Die Modelle basieren auf den Ettin ModernBERT-Encodern und werden gemeinsam mit den Trainingsdaten und dem vollständigen Trainings-Rezept veröffentlicht.

Verfügbare Modelle

Die Familie umfasst sechs Varianten:

cross-encoder/ettin-reranker-17m-v1
cross-encoder/ettin-reranker-32m-v1
cross-encoder/ettin-reranker-68m-v1
cross-encoder/ettin-reranker-150m-v1
cross-encoder/ettin-reranker-400m-v1
cross-encoder/ettin-reranker-1b-v1

Die Modelle wurden mit einem Distillations-Rezept trainiert: Pointwise MSE auf mixedbread-ai/mxbai-rerank-large-v2-Scores über einem Subset der lightonai-Embedding-Datasets.

Gemini 3.5: Googles Antwort auf Coding-Agenten

Thu, 28 May 2026 08:00:00 +0200

Google hat auf der I/O 2026 die neue Gemini-3.5-Modellfamilie vorgestellt. Der Fokus liegt diesmal nicht auf roher Intelligenz, sondern auf Action – also der Fähigkeit, komplexe Workflows autonom auszuführen. Der erste Release ist Gemini 3.5 Flash, sofort verfügbar für Milliarden von Nutzern weltweit über die Gemini-App und den KI-Modus in der Google-Suche.

Frontier-Performance für Agenten

Gemini 3.5 Flash liefert Frontier-Performance speziell für Agenten und Coding. Die Stärke liegt bei komplexen Aufgaben mit langem Zeithorizont – genau das, was Coding-Agenten benötigen. Entwickler können das Modell über die Google-Antigravity-Plattform, die Gemini API in Google AI Studio und Android Studio nutzen. Enterprise-Kunden erhalten Zugriff über die Gemini Enterprise Agent Platform.

KI-Agenten verstehen: Ein Glossar der wichtigsten Begriffe

Thu, 28 May 2026 00:00:00 +0000

Die Sprache rund um KI-Agenten entwickelt sich rasant, oft schneller als das gemeinsame Verständnis der Begriffe. HuggingFace hat nun ein Glossar veröffentlicht, das Licht ins Dunkel bringt und die wichtigsten Konzepte präzise erklärt.

Im Zentrum steht die Gleichung Agent = Model + Harness. Das Model ist das Sprachmodell selbst – es nimmt Text entgegen und gibt Text aus, hat aber kein Gedächtnis zwischen Aufrufen. Das Harness ist die Ausführungsschicht: Es ruft das Model auf, verarbeitet Tool-Aufrufe und entscheidet, wann der Agent stoppt. Das Scaffolding definiert das Verhalten – System-Prompts, Tool-Beschreibungen und wie Responses interpretiert werden.

Ollama: Von lokal zu Cloud – nahtlose LLM-Integration

Wed, 27 May 2026 00:00:00 +0000

Ollama hat sich als de-facto-Standard für lokale LLM-Entwicklung etabliert. Mit einem Befehl wie \ startet ein lokaler LLM-Server, perfekt für Entwicklung und Experimente. Jetzt schließt Ollama die Lücke zur Cloud.

Das Problem mit lokal

Lokale LLMs sind toll für:

Entwicklung und Testing ohne API-Kosten
Privacy und Datenkontrolle
Keine Latency durch Network-Calls
Offline-Arbeit

Aber für Produktion brauchst du:

Skalierbarkeit
GPU-Power jenseits der lokalen Hardware
Zuverlässige Verfügbarkeit
Einfache Deployment-Pfade

Der Übergang von lokal zu Produktion war bisher holprig. Andere API-Endpunkte, andere Authentifizierung, anderes Pricing.

Trillion-Parameter-Training: Delta Weight Sync in TRL

Wed, 27 May 2026 00:00:00 +0000

Asynchrones Reinforcement Learning hat ein skaliertes Problem: Jeder Trainingsschritt erfordert den Transfer des kompletten Modells an den Inference-Server. Bei 7B Parametern sind das 14 GB. Bei Frontier-Modellen mit 1 Billion Parametern: ein Terabyte pro Schritt.

Hugging Face hat eine Lösung implementiert, die dieses Problem eliminiert.

Das Problem

Bei Async-RL läuft der Trainer auf einem Cluster, der Inference-Server auf einem anderen. Nach jedem Optimizer-Schritt muss das aktualisierte Modell zum Inference-Server – sonst generiert dieser mit veralteten Gewichten. Der Overhead ist brutal.

Agent-Glossar - Die Begriffe hinter Harness und Scaffold

Tue, 26 May 2026 00:00:00 +0000

Wenn sich ein Feld schnell entwickelt, hält das Vokabular oft mit dem gemeinsamen Verständnis nicht Schritt. Ein neuer Blogpost von HuggingFace versucht, Licht in die Begriffswelt der KI-Agenten zu bringen - insbesondere Harness, Scaffold und verwandte Konzepte.

Warum dieses Glossar wichtig ist

Nach ICLR 2026 wurde eine Frage im Raum: Was bedeutet eigentlich harness und scaffold im Kontext von Agenten? Die Antworten blieben vage und widersprüchlich. Dieses Glossar ist der Versuch, die Begriffe zu klären, die ständig auftauchen, aber nie einheitlich erklärt werden.

DeepSeek-V4 mit Millionen-Token-Kontext für Agenten

Tue, 26 May 2026 00:00:00 +0000

DeepSeek hat mit V4 ein Model veröffentlicht, das einen Millionen-Token-Kontext nicht nur verspricht, sondern tatsächlich nutzbar macht. Die Architektur ist speziell für langlaufende Agenten-Workloads optimiert - ein Problem, das bisher alle Frontier-Modelle zum Stillstand bringt.

Die Modelle

Zwei MoE-Varianten stehen auf HuggingFace bereit:

DeepSeek-V4-Pro: 1,6T Gesamtparameter, 49B aktiv pro Token
DeepSeek-V4-Flash: 284B Gesamtparameter, 13B aktiv pro Token

Beide bieten ein 1M-Token-Kontextfenster. Die Benchmark-Ergebnisse sind konkurrenzfähig, aber nicht State-of-the-Art. Das ist jedoch nicht der Punkt.

EAGLE 3.1 - Robusteres Speculative Decoding für vLLM

Tue, 26 May 2026 00:00:00 +0000

Ein gemeinsames Release der EAGLE-, vLLM- und TorchSpec-Teams bringt EAGLE 3.1 als bedeutendes Update für speculative Decoding-Algorithmen. Die neue Version adressiert ein Kernproblem: Instabilität bei wechselnden Chat-Templates und langen Kontexten.

Was ist Speculative Decoding?

Speculative Decoding nutzt ein kleineres Draft-Modell, das mehrere Tokens gleichzeitig vorhersagt. Das Hauptmodell verifiziert diese Vorhersagen in einem einzigen Forward-Pass. Akzeptierte Tokens werden behalten, bei Ablehnung wird ab dem Fehlerpunkt neu generiert. Das Ergebnis: Bis zu 2x höhere Throughput ohne Qualitätsverlust.

Klartext für KI-Entwickler: Harness, Scaffold und die Begriffe, die man kennen muss

Mon, 25 May 2026 06:00:00 +0000

Warum dieser Glossar wichtig ist

In der schnelllebigen Welt der KI-Agenten vermischen sich Begriffe, werden unterschiedlich verwendet oder verschwinden nach wenigen Monaten stillschweigend. Nach ICLR 2026 postete ein Entwickler eine Frage, die die Verwirrung perfekt einfängt: “Was meint ihr eigentlich mit ‘harness’ und ‘scaffold’ im Kontext von Agenten? Ich habe auf ICLR viele Erklärungen gehört, aber keine hat auf dieselbe Antwort hingeführt.” Dieser Glossar von HuggingFace ist der Versuch, Ordnung in dieses Chaos zu bringen – ohne Anspruch auf Vollständigkeit, aber mit praktischen Mental Models für Diskussionen.

Google I/O 2026: Gemini 3.5 und die agentische Ära

Mon, 25 May 2026 00:00:00 +0000

Googles I/O 2026 brachte eine Flut an Ankündigungen: Gemini 3.5 mit agentischen Fähigkeiten, Gemini Omni, und ein neues AI Ultra Abonnement für 100 Dollar monatlich.

Sundar Pichai präsentiert auf der I/O 2026 den Übergang in die “agentische Gemini-Ära”. Das bedeutet: Modelle, die nicht nur generieren, sondern handeln. Gemini 3.5 ist die neueste Modellfamilie, die Frontier-Intelligenz mit Aktionsfähigkeit kombiniert.

Gemini 3.5: Frontier Intelligence mit Action

Die neuen Modelle sind darauf ausgelegt, nicht nur Text zu generieren, sondern komplexe Aufgaben über mehrere Schritte hinweg auszuführen. Das heißt: Tool-Use, Function Calling, und die Integration mit externen Systemen sind First-Class Citizens. Die Modellfamilie umfasst verschiedene Größen für unterschiedliche Use Cases.

DeepSeek V4-Pro: 75% Rabatt wird permanent

Sun, 24 May 2026 00:00:00 +0000

DeepSeek hat angekündigt, den 75% Rabatt auf sein Flaggschiff-Modell V4-Pro dauerhaft beizubehalten. Entwickler zahlen damit nur noch ein Viertel des ursprünglichen Preises - eine Entscheidung, die den Preisdruck im KI-Markt verschärft.

Die ursprüngliche Rabattaktion sollte Ende Mai auslaufen. In einer Erklärung auf der eigenen Website bestätigte DeepSeek jedoch, dass die vergünstigten Preise für Developer permanent bleiben. Dies signalisiert einen fundamentalen Wandel in der Preisstruktur für frontier KI-Modelle.

Die Implikationen für den Markt sind erheblich. Chinesische KI-Firmen konkurrieren zunehmend direkt mit globalen Anbietern wie OpenAI, Anthropic und Google. Die aggressive Preisstrategie von DeepSeek zwingt Wettbewerber, ihre eigene Preisgestaltung zu überdenken.

Gemini 3.5 Flash: Googles Antwort auf agentische KI-Workflows

Sun, 24 May 2026 00:00:00 +0000

Google DeepMind hat mit Gemini 3.5 eine neue Modellfamilie vorgestellt, die speziell für komplexe agentische Workflows entwickelt wurde. Der Fokus liegt nicht mehr allein auf reiner Intelligenz, sondern auf der Fähigkeit, Aufgaben autonom auszuführen.

Agenten statt Assistenten

Gemini 3.5 Flash, die erste Variante der neuen Serie, ist ab sofort weltweit verfügbar. Das Modell zielt auf die Lücke zwischen traditionellen Chat-Interfaces und vollautomatisierten Agenten. Entwickler können Aufgaben starten und das System erledigt independently die Arbeit – von der Planung über die Recherche bis zur Umsetzung.

Nemotron-Labs Diffusion: Textgenerierung mit Lichtgeschwindigkeit

Sun, 24 May 2026 00:00:00 +0000

NVIDIA präsentiert mit Nemotron-Labs Diffusion einen fundamental neuen Ansatz zur Textgenerierung. Statt Token für Token sequenziell zu erzeugen - wie bei herkömmlichen autoregressiven Modellen - generiert dieses Diffusion Language Model mehrere Token parallel und verfeinert sie iterativ.

Das Problem mit autoregressiven Modellen: Jeder neue Token erfordert einen kompletten Modell-Durchlauf, wobei alle Gewichte aus dem Speicher geladen werden müssen. Die meiste Rechenzeit verbringen moderne GPUs nicht mit eigentlicher Berechnung, sondern mit Speicheroperationen. Diese Ineffizienz wird durch die Token-abhängige Generierung noch verstärkt.

3B-Modell schlägt alle Frontier-APIs: Spezialisierung über Skalierung

Sat, 23 May 2026 00:00:00 +0000

Ein 3-Milliarden-Parameter-Modell übertrifft jede Frontier-API

Für drei Jahre war die Enterprise-KI-Strategie stabil gewachsen: Die sicherste Wahl war meist das größte verfügbare Frontier-Modell. Kleinere Modelle wurden nur dort eingesetzt, wo Workloads Qualitätseinbußen gegen niedrigere Kosten akzeptierten. Diese Logik war nachvollziehbar: Fähigkeiten skalierten mit Parameteranzahl, Frontier-Provider führten die Benchmarks an, und die Kosten der falschen Entscheidung erschienen größer als der Preis für das beste Modell.

Dharma-AI veröffentlichte im April DharmaOCR – spezialisierte Sprachmodelle für strukturierte OCR. Die begleitende Forschung demonstriert nun einen Befund, der die herkömmliche Annahme in Frage stellt: Ein 3-Milliarden-Parameter-Modell, spezialisiert durch eine Fine-Tuning-Pipeline, übertraf jede getestete kommerzielle Frontier-API. Nicht knapp. Und nicht auf einer Metrik, die Käucher ignorieren würden.

Google I/O 2026 - Gemini 3.5 Flash und Omni

Sat, 23 May 2026 00:00:00 +0000

Google I/O 2026: Gemini 3.5 Flash und die Omni-Aera

Die Google I/O 2026 stand ganz im Zeichen agentischer KI-Entwicklung. Mit Gemini 3.5 Flash und dem bahnbrechenden Gemini Omni präsentierte Google zwei Modelle, die die Landschaft der generativen KI nachhaltig verändern dürften.

Gemini 3.5 Flash ist ab sofort allgemein verfügbar und kombiniert Front-End-Intelligenz mit Geschwindigkeit. Was besonders auffällt: Das Modell übertrifft Gemini 3.1 Pro in anspruchsvollen Coding- und Agentik-Benchmarks wie Terminal-Bench 2.1 (76.2%), GDPval-AA (1656 Elo) und MCP Atlas (83.6%). Das bedeutet: Frontier-Level-Intelligenz ohne die typischen Latenz-Einbussen.

NVIDIA Nemotron-Labs Diffusion: Textgenerierung mit Lichtgeschwindigkeit

Sat, 23 May 2026 00:00:00 +0000

Diffusion Language Models: Ein neues Paradigma für Textgenerierung

Große Sprachmodelle waren seit Jahren autoregressiv – sie generieren Token für Token, wobei jeder neue Token von den vorhergehenden abhängt. Das ist stabil beim Training und einfach zu servieren, aber es schafft einen harten Limit: Jeder neue Token erfordert einen kompletten Model-Pass, und alle Gewichte müssen erst aus dem Speicher geladen werden. Auf modernen GPUs verbringen autoregressive Modelle die meiste Zeit mit Speicheroperationen statt mit Berechnung.

Open Agent Leaderboard: Endlich Agenten ganzheitlich vergleichen

Fri, 22 May 2026 10:00:00 +0200

Die meisten KI-Benchmarks fragen: Welches Modell erzielt die höchste Punktzahl? Doch bei Agenten ist das Modell nur ein Teil der Gleichung. Ein neuer Open-Source-Benchmark von IBM Research auf Hugging Face ändert die Perspektive: Er bewertet vollständige Agentensysteme – inklusive Tools, Planung, Gedächtnis und Fehlerbehandlung.

Das Ergebnis desselben Modells kann drastisch variieren, je nachdem welche Werkzeuge verfügbar sind, wie der Agent plant, was er sich merkt, und wie er mit Fehlern umgeht. Der Open Agent Leaderboard macht diese Variablen sichtbar und misst sowohl Qualität als auch Kosten. So sieht man nicht nur was funktioniert, sondern ob sich der Einsatz tatsächlich lohnt.

Spezialisierung schlägt Skalierung

Fri, 22 May 2026 00:00:00 +0000

Kurzbeschreibung

Eine neue Studie von Dharma-AI belegt empirisch: Ein auf 3 Milliarden Parameter spezialisiertes Modell kann Frontier-APIs wie Claude Opus oder GPT-5 in domänenspezifischen Aufgaben übertreffen – bei einem Fünfzigstel der Kosten.

Abstract

Die vorherrschende procurement-Logik in Unternehmen lautete lange: Das größte verfügbare Modell ist die sicherste Wahl. Eine aktuelle Veröffentlichung von Dharma-AI stellt diese Annahme auf den Kopf. Im Rahmen der DharmaOCR-Forschung wurde ein 3-Milliarden-Parameter-Modell durch domänenspezifisches Fine-Tuning so weit spezialisiert, dass es alle getesteten kommerziellen Frontier-APIs übertraf.

Ettin Reranker: State-of-the-Art für Semantic Search

Thu, 21 May 2026 06:00:00 +0200

Sechs neue Reranker-Modelle

Tom Aarsen von Hugging Face hat die Ettin Reranker-Familie veröffentlicht – sechs neue CrossEncoder-Reranker, die auf ModernBERT basieren und in ihren jeweiligen Größenklassen State-of-the-Art-Performance erreichen.

Die Modelle

Verfügbar sind sechs Varianten:

ettin-reranker-17m-v1 – die kompakte Version
ettin-reranker-32m-v1
ettin-reranker-68m-v1
ettin-reranker-150m-v1 – ausgewogene Balance
ettin-reranker-400m-v1
ettin-reranker-1b-v1 – die leistungsstarke Variante

Training-Rezept

Die Modelle wurden mit einem Distillations-Rezept trainiert: Pointwise MSE auf mxbai-rerank-large-v2 Scores mit einem kuratierten Dataset aus embeddings-pre-training und embeddings-fine-tuning. Das Training ist vollständig reproduzierbar.

Qwen3.7-Max: Das neue Agent-Fundament

Thu, 21 May 2026 06:00:00 +0200

Qwen3.7-Max vorgestellt

Alibabas Qwen-Team hat mit Qwen3.7-Max sein neuestes Modell für die Agenten-Ära präsentiert. Das proprietäre Modell wurde speziell für autonome Agenten-Aufgaben konzipiert und zeigt beeindruckende Ergebnisse in Coding- und Agent-Benchmarks.

Die Stärken

Qwen3.7-Max positioniert sich als vielseitiges Agent-Fundament:

Coding Agent: Von Frontend-Prototyping bis zu komplexer Multi-File-Entwicklung
Office-Assistent: Zuverlässige Produktivitäts-Hilfe durch MCP-Integrationen
Langzeit-Reasoning: 35-stündige autonome Kernel-Optimierung mit über 1000 Tool-Calls demonstriert

Benchmark-Ergebnisse

In den wichtigsten Agent-Benchmarks übertrifft Qwen3.7-Max die Konkurrenz:

Ettin Reranker: Sechs neue Modelle für semantische Suche

Wed, 20 May 2026 18:00:00 +0200

Hugging Face veröffentlicht mit der Ettin Reranker-Familie sechs neue Cross-Encoder-Modelle, die State-of-the-Art-Performance in ihren jeweiligen Größenklassen erreichen. Die Modelle basieren auf den modernBERT-Encodern und decken Größen von 17M bis 1B Parameter ab.

Die sechs Varianten – 17M, 32M, 68M, 150M, 400M und 1B – ermöglichen Entwicklern eine granulare Auswahl zwischen Geschwindigkeit und Genauigkeit. Beim Pairing mit embeddinggemma-300m erreichen die Reranker auf dem MTEB(eng, v2) Retrieval-Benchmark konkurrenzfähige Ergebnisse mit deutlich größeren Modellen der Konkurrenz.

Google Gemini 3.5: Frontier-Intelligenz trifft Handlungsfähigkeit

Wed, 20 May 2026 18:00:00 +0200

Auf der Google I/O 2026 wurde Gemini 3.5 vorgestellt – die neueste Modellfamilie, die frontier Intelligenz mit echter Handlungsfähigkeit kombiniert. Der Start der Serie beginnt mit 3.5 Flash, das sofort für Milliarden von Nutzerinnen weltweit verfügbar ist: über die Gemini-App, den AI Mode in Google Search, Google Antigravity für Entwickler sowie Android Studio und Gemini Enterprise für Unternehmen.

Die Entwicklung von Gemini 3.5 fokussiert sich auf drei Kernbereiche: Performance bei Agent-Aufgaben, Geschwindigkeit und komplexe Long-Horizon-Tasks. Besonders bei Coding-Agent-Szenarien zeigt das Modell laut Google signifikante Verbesserungen gegenüber vorherigen Versionen. Die Fähigkeit zur Ausführung längerer Workflows ohne Zwischenschritte ist ein zentraler Fortschritt.

Ettin Reranker: State-of-the-Art Reranking-Modelle von Hugging Face

Wed, 20 May 2026 00:00:00 +0000

Tom Aarsen veröffentlicht sechs neue CrossEncoder-Reranker in Sentence Transformers – State-of-the-Art bei ihren jeweiligen Modellgrößen.

Die Ettin Reranker Familie

Die neuen Modelle basieren auf den Ettin ModernBERT-Encodern und umfassen:

ettin-reranker-17m-v1 – Kleinstes Modell für Ressourcen-beschränkte Umgebungen
ettin-reranker-32m-v1 – Kompakt und effizient
ettin-reranker-68m-v1 – Ausgewogene Balance aus Performance und Größe
ettin-reranker-150m-v1 – Mittelgroßes Modell
ettin-reranker-400m-v1 – Für anspruchsvollere Anwendungen
ettin-reranker-1b-v1 – Größtes Modell mit maximaler Leistung

Training mit Distillation

Die Modelle wurden durch Distillation trainiert: Pointwise MSE auf mixedbread-ai/mxbai-rerank-large-v2 Scores über einen neuen Datensatz aus lightonai-Daten. Das Training-Rezept ist vollständig dokumentiert und der Datensatz öffentlich verfügbar.

Asynchrones Continuous Batching - CPU und GPU parallel

Tue, 19 May 2026 00:00:00 +0000

Hugging Face erklärt, wie man CPU und GPU Arbeit entkoppelt, um die LLM-Inference massiv zu beschleunigen.

Kurzbeschreibung

Durch asynchrones Batching werden CPU-Vorbereitung und GPU-Berechnung parallelisiert. Idlezeiten werden eliminiert und der GPU-Durchsatz maximiert.

Abstract

Continuous Batching ist ein wichtiger Schritt für effiziente LLM-Inference, aber das Standard-Verfahren hat eine Schwachstelle: Es ist synchron. Das bedeutet, CPU und GPU arbeiten abwechselnd. Während die GPU rechnet, wartet die CPU, und während die CPU den nächsten Batch vorbereitet, wartet die GPU. In Loops mit hunderten Schritten pro Sekunde summieren sich diese Pausen zu echtem Performance-Verlust.

Ettin Reranker: Neue SOTA-Modelle für Semantische Suche

Tue, 19 May 2026 00:00:00 +0000

Sechs neue Reranker von 17M bis 1B Parametern

Tom Aarsen hat sechs neue CrossEncoder-Reranker unter dem Namen Ettin veröffentlicht, basierend auf den ModernBERT-Encoding-Modellen. Die Modelle sind durch Distillation von mixedbread-ai/mxbai-rerank-large-v2 trainiert und erreichen State-of-the-Art-Ergebnisse bei ihren jeweiligen Größen.

Die Modellfamilie

ettin-reranker-17m-v1 – Kleinste Variante, ideal für Edge-Deployment
ettin-reranker-32m-v1 – Kompakt für Low-Resource-Umgebungen
ettin-reranker-68m-v1 – Ausgewogene Balance zwischen Leistung und Ressourcen
ettin-reranker-150m-v1 – Mittelgroße Option
ettin-reranker-400m-v1 – Höhere Qualität
ettin-reranker-1b-v1 – Flagship-Modell

Was macht einen guten Reranker?

Reranker verbessern die Qualität der Retrieval-Ergebnisse, indem sie Dokumente neu ordnen, nachdem ein erstes Retrieval durchgeführt wurde. Sie arbeiten mit einem Query-Dokument-Paar und geben eine Relevanz-Score zurück. Kombiniert mit einem Embedding-Modell wie embeddinggemma-300m erreichen sie auf MTEB(eng, v2) Retrieval starke Ergebnisse.

Open Agent Leaderboard - Agenten systematisch bewerten

Tue, 19 May 2026 00:00:00 +0000

IBM Research veröffentlicht einen offenen Benchmark für AI-Agenten. Nicht nur Modelle, sondern ganze Systeme.

Kurzbeschreibung

Der Open Agent Leaderboard bewertet vollständige Agentensysteme statt einzelner Modelle und betrachtet sowohl Qualität als auch Kosten.

Abstract

IBM Research hat den Open Agent Leaderboard gestartet, einen offenen Benchmark, der nicht nur Modelle vergleicht, sondern vollständige Agentensysteme. Die zentrale Erkenntnis: Ein AI-Agent ist nur so gut wie sein System. Nicht nur das Modell selbst zählt, sondern auch welche Tools verfügbar sind, wie der Agent plant, was er zwischen Aktionen speichert und wie er sich bei Fehlern erholt.

JetBrains KI-Strategie 2026: Zwei Workflows, eine IDE

Mon, 18 May 2026 00:00:00 +0000

Klassische und KI-gestützte Entwicklung im Gleichgewicht

JetBrains hat seine strategische Ausrichtung für 2026 skizziert und setzt dabei auf Koexistenz statt Ersatz. Das Unternehmen erkennt zwei grundlegende Arten der Code-Erstellung: den klassischen Ansatz mit manueller Eingabe,Refactoring und Debugging, sowie den neuen KI-gestützten Workflow mit Autovervollständigung und Agenten.

Wichtig: JetBrains positioniert keinen der beiden Ansätze als überlegen. Das Ziel ist vielmehr, beide Workflows ohne gegenseitige Behinderung in den IDEs zu ermöglichen. Wer selbst codiert, soll eine fokussierte IDE erleben, bei der KI die grundlegende Coding-Erfahrung nicht stört. Wer KI generieren lässt, soll eine UX erleben, die sich natürlich und mächtig anfühlt.

JetBrains KI-Strategie 2026: Zwei Workflows, eine IDE

Mon, 18 May 2026 00:00:00 +0000

Klassische und KI-gestützte Entwicklung im Gleichgewicht

Open Agent Leaderboard: IBM misst Agent-Systeme nicht nur Models

Mon, 18 May 2026 00:00:00 +0000

Warum Modelle allein nicht ausreichen

IBM Research hat den Open Agent Leaderboard veröffentlicht. Der Kernsatz: “Wie gut ein AI-Agent funktioniert hängt davon ab wie er gebaut ist nicht nur vom Modell darin.” Traditionelle Benchmarks testen isolierte Modelle. Das neue Framework bewertet ganze Agent-Systeme.

Was wird gemessen

Der Leaderboard kombiniert sechs Benchmarks mit realistischen Aufgaben:

SWE-Bench Verified: Echte Bugs in真实en Code-Repositories
BrowseComp+: Komplexe Web-Recherche-Fragen
AppWorld: Realistische App-Interaktionen

Qualität und Kosten

Das Framework meldet sowohl Qualität als auch Kosten. So sieht man nicht nur was funktioniert sondern auch ob sich der Einsatz lohnt. Ein System das alles kann aber ein Vermögen kostet ist nicht allgemein einsetzbar.

KI-gestütztes Google Finance erreicht Europa

Sun, 17 May 2026 00:00:00 +0000

Google bringt sein KI-gestütztes Google Finance nach Europa. Die überarbeitete Plattform bietet eine Reihe neuer Funktionen, die Finanzielle Analyse deutlich zugänglicher machen.

AI-powered Research

Die zentrale Neuerung: Nutzer können Fragen zu Aktien, Markttrends oder Wirtschaftsthemen stellen und erhalten eine KI-generierte Antwort mit Quellenverweisen.

Für komplexere Fragen steht “Deep Search” zur Verfügung - eine Funktion, die jetzt weltweit in Google Finance verfügbar ist.

Erweiterte Visualisierungen

Neue Charting-Tools gehen über einfache historische Performance hinaus:

SANA-WM: Open-Source-Weltmodell für minutenlange Videos

Sun, 17 May 2026 00:00:00 +0000

NVIDIA Labs hat mit SANA-WM ein effizientes 2,6-Milliarden-Parameter-Weltmodell veröffentlicht, das nativ für einminütige Videogeneration trainiert wurde. Das Besondere: Es läuft auf einer einzigen GPU und erzeugt 720p-Videos mit präziser Kamerasteuerung.

Vier-Säulen-Architektur

Das Modell basiert auf vier Kernkonzepten. Hybrid Linear Attention kombiniert Gated DeltaNet mit Softmax-Attention für speichereffiziente Long-Context-Modellierung. Dual-Branch Camera Control sorgt für präzise 6-DoF-Trajektorien-Adhärenz. Ein Two-Stage Generation Pipeline mit einem 17B-Long-Video-Refiner verbessert Textur und Bewegungsqualität deutlich. Eine robuste Annotation Pipeline extrahiert metrische 6-DoF-Kameraposen aus öffentlichen Videos.

Asynchrones Continuous Batching maximiert GPU-Auslastung

Sat, 16 May 2026 00:00:00 +0000

Ein H200 kostet circa 5 Dollar pro Stunde. Das klingt günstig, aber nach einem Tag sind es bereits 120 Dollar. Wer Cloud-GPUs nutzt, will maximale Auslastung. Continuous Batching ist der erste Schritt. Asynchrones Continuous Batching ist der nächste.

Das Problem mit synchronem Batching

Bei synchronem Batching warten CPU und GPU aufeinander. Die GPU berechnet Tokens, während die CPU wartet. Dann bereitet die CPU den nächsten Batch vor, während die GPU wartet. In einem Loop mit hunderten Schritten pro Sekunde summieren sich diese Lücken.

Claude lehrt Open-Source-Modelle CUDA-Kernel zu schreiben

Sat, 16 May 2026 00:00:00 +0000

Ein neuer Ansatz von HuggingFace demonstriert das “Upskilling” von Coding Agents: Ein Skill, mit dem Claude Opus komplexe CUDA-Kernel entwickelt und diese Faehigkeit dann an kleinere Open-Source-Modelle weitergibt. Das Ergebnis: Modelle, die auf Laptops laufen, koennen optimierte GPU-Kernel fuer diffusers und transformers schreiben.

Das Problem

CUDA-Kernel zu schreiben ist schwierig. Die Integration mit transformers und diffusers erfordert architekturspezifische Speicherzugriffsmuster, Vektorisierungsstrategien, Warp-Shuffle-Reduktionen und Dutzende Integrationsfallen. Das Kernel Hub loeste die Distribution - mit get_kernel() koennen vorkompilierte Kernel geladen werden. Aber jemand muss sie schreiben.

SANA-WM: Open-Source World Model für 1-Minuten-Videos

Sat, 16 May 2026 00:00:00 +0000

NVIDIA Labs veröffentlicht SANA-WM, ein offenes World Model für Video-Generierung. Aus einem einzigen Startbild und einer Kamera-Trajektorie entstehen minutelange 720p-Videos - auf einer einzigen GPU.

Kernfeatures

SANA-WM ist ein 2.6 Milliarden Parameter starkes Modell, das auf einem einzelnen H100 trainiert und deployed werden kann. Es generiert eine volle Minute Video in 720p Qualität mit präziser 6-DoF Kamerasteuerung. Die Distilled-Variante läuft sogar auf einer RTX 5090 mit NVFP4-Quantisierung und denoiset einen 60-Sekunden-Clip in nur 34 Sekunden.

EMO: Emergente Modularität durch Mixture-of-Experts Pretraining

Fri, 15 May 2026 00:00:00 +0000

Allen AI veröffentlicht EMO, ein Mixture-of-Experts-Modell, das während des Pretrainings emergente modulare Struktur entwickelt — ohne menschlich definierte Domänen-Priors. Das Ergebnis: Nur 12,5% der Experten für eine Aufgabe werden benötigt, während nahezu volle Modell-Performance bleibt.

Das Problem mit klassischen MoEs

Mixture-of-Experts-Modelle sind theoretisch elegant: statt eines großen Feedforward-Netzwerks pro Layer viele kleinere_experts_, von denen nur eine Untermenge aktiviert wird. In der Praxis scheitern jedoch viele MoE-Ansätze daran, dass Experten sich auf low-level lexikalische Patterns spezialisieren — Präpositionen, Satzzeichen — statt auf höhere Domänen oder Fähigkeiten.

Granite Embedding: Multilinguale Embeddings mit 32K Kontext

Fri, 15 May 2026 00:00:00 +0000

IBM Granite veröffentlicht zwei neue Apache 2.0 Embedding-Modelle: ein kompaktes 97M-Modell, das auf MTEB Multilingual Retrieval mit 60.3 den Spitzenplatz unter 100M Parametern einnimmt, und ein 311M-Vollmodell, das mit 65.2 auf Platz 2 unter 500M landet. Beide unterstützen 32K-Token-Kontext und über 200 Sprachen.

Die Herausforderung multilingualer Embeddings

Multilingual Embeddings stehen immer vor einem Spannungsverhältnis: Breite Sprachabdeckung kostet meist Model-Größe, und kleine Modelle opfern oft Sprachunterstützung. Wer mit multilingualen Korpora arbeitet, kennt die Wahl zwischen einem Modell, das schnell genug ist, und einem, das gut genug ist.

IBMs Granite Embedding R2: Multilinguale Embeddings mit Apache 2.0

Fri, 15 May 2026 00:00:00 +0000

IBM veröffentlichte Granite Embedding Multilingual R2 auf HuggingFace – ein offenes Apache-2.0-Embedding-Modell mit 32K Kontext und bester Retrieval-Qualität unter den Sub-100M-Modellen.

Technische Highlights

Das Modell bietet multilingualen Support mit einem Kontextfenster von 32.768 Token, was es ideal für RAG-Anwendungen mit langen Dokumenten macht. Die Architektur ist auf Effizienz optimiert: Mit weniger als 100M Parametern bleibt die Inference kostengünstig, während die Retrieval-Performance mit größeren Modellen mithält.

Die Apache-2.0-Lizenz ermöglicht kommerzielle Nutzung ohne Einschränkungen – ein wichtiger Aspekt für Unternehmen, die Embeddings in Produktion einsetzen möchten.

DeepSeek-V4: 1 Million Token Context endlich nutzbar

Thu, 14 May 2026 06:00:00 +0000

DeepSeek hat V4 veröffentlicht und die Benchmarks sind beeindruckend, aber nicht SOTA. Das ist aber gar nicht der Punkt. Die wahre Innovation liegt in der Architektur, die extrem lange Kontexte tatsächlich praktisch nutzbar macht - speziell für Agenten-Workloads.

Das Problem mit langem Kontext

Ein 1M Token Context Window ist nur Kapazität, nicht Performance. Bei Agenten, die lange Tool-Use-Trajektorien durchlaufen, wird jedes Tool-Ergebnis an den Kontext angehängt. Jeder nachfolgende Token zahlt die volle Attention-Kosten gegen alles bisherige.

Needle: Winziger 26M-KI für Tool-Aufrufe auf Mobilgeräten

Thu, 14 May 2026 00:00:00 +0000

Cactus Compute hat Needle veröffentlicht, ein Open-Source-Sprachmodell mit nur 26 Millionen Parametern, das speziell für Function-Calling auf Mobilgeräten optimiert ist. Das Modell erreicht 6000 Token/s beim Prefetch und 1200 Token/s beim Decoding auf Consumer-Hardware - schnell genug für Echtzeitanwendungen auf Smartphones, Smartwatches und Wearables.

Die Architektur bricht mit Konventionen: Needle verzichtet vollständig auf Feed-Forward-Networks (FFN) und basiert ausschließlich auf Attention-Mechanismen und Gating. Die Entwickler erkannten, dass Function-Calling im Kern ein Retrieval-and-Assembly-Problem ist - Query-zu-Tool-Zuordnung, Argument-Extraktion, JSON-Generierung - und keine komplexen Reasoning-Fähigkeiten erfordert. Cross-Attention ist das richtige Primitive für diese Aufgabe, FFN-Parameter wären verschwendet.

Foundation Models auf AWS: Bausteine für Training und Inference

Wed, 13 May 2026 00:00:00 +0000

Amazon veröffentlicht einen umfassenden Leitfaden zur Infrastruktur für Foundation-Model-Training und -Inference auf AWS. Der Fokus liegt auf der Konvergenz von drei kritischen Anforderungen: eng gekoppelte Accelerator-Compute, hochbandige Low-Latency-Netzwerke und verteilter Storage.

Die drei Skalierungsgesetze der KI

NVIDIAs “Three Scaling Laws”-Konzept unterteilt die Skalierung nicht mehr nur in Pre-Training: Post-Training (SFT, RL) und Test-Time-Compute (Chain-of-Thought, Multi-Sample-Strategien) werden immer wichtiger. Alle drei Regime benötigen ähnliche Infrastrukturkomponenten, was die Systemarchitektur vereinfacht, aber auch spezifische Anforderungen an die Netzwerk- und Speicherebene stellt.

OpenAI veröffentlicht GPT OSS als Open-Source-Modellfamilie

Wed, 13 May 2026 00:00:00 +0000

GPT OSS ist der lang erwartete Open-Weights-Release von OpenAI, entwickelt für leistungsstarke Reasoning-, Agenten- und vielseitige Entwickler-Anwendungen. Die Modellfamilie besteht aus zwei Varianten: einem großen Modell mit 117 Milliarden Parametern (gpt-oss-120b) und einem kleineren mit 21 Milliarden Parametern (gpt-oss-20b).

Technische Spezifikationen

Beide Modelle basieren auf der Mixture-of-Experts (MoE) Architektur und nutzen ein 4-Bit-Quantisierungsschema (MXFP4). Diese Kombination ermöglicht schnelle Inferenz durch weniger aktive Parameter bei gleichzeitig geringem Ressourcenverbrauch. Das große Modell passt auf eine einzelne H100-GPU, während das kleine Modell mit nur 16GB Arbeitsspeicher läuft – ideal für Consumer-Hardware und On-Device-Anwendungen.

DeepInfra: Kostengünstiger Inference-Provider auf Hugging Face

Tue, 12 May 2026 00:00:00 +0000

DeepInfra ist jetzt offizieller Inference-Provider auf Hugging Face. Das Platform bietet mit über 100 Modellen eine der kostengünstigsten Token-Preise der Branche und integriert sich nahtlos in die Hugging Face SDKs.

Das Angebot

DeepInfra deckt ein breites Spektrum ab: LLMs für Text-Generierung, Text-to-Image, Text-to-Video, Embeddings und mehr. Zum Launch stehen Conversational- und Text-Generation-Tasks mit Modellen wie DeepSeek V4 Pro, Kimi-K2.6 und GLM-5.1 bereit. Weitere Task-Typen folgen in Kürze.

Wie die Integration funktioniert

Entwickler haben zwei Optionen: Eigene API-Keys direkt bei DeepInfra hinterlegen – dann laufen die Calls direkt zum Provider. Oder HF-Route verwenden – dann wird über das HuggingFace-Konto abgerechnet, ohne separaten DeepInfra-Token. In den User-Settings kann man Provider nach Präferenz ordnen, was sich auf Code-Snippets und Widgets auswirkt.

vLLM V1: Korrektheit vor Korrekturen im RL-Training

Tue, 12 May 2026 00:00:00 +0000

ServiceNow veröffentlicht wichtige Erkenntnisse zu vLLM V1 im Kontext von Reinforcement Learning. Der Kernpunkt: Im RL-Training ist Korrektheit wichtiger als Post-Hoc-Korrekturen. Modelle sollten von Anfang an richtige Ausgaben produzieren statt auf Korrektur-Schleifen zu vertrauen.

Die Studie zeigt, dass Modelle, die mit korrektem Output trainiert werden, deutlich bessere Ergebnisse erzielen als solche, die auf nachträgliche Korrekturen basieren. Das hat weitreichende Implikationen für die gesamte RLHF-Pipeline und wie wir Language Models trainieren.

Claude als User-Space IP-Stack: Ping in 45 Sekunden

Mon, 11 May 2026 00:00:00 +0000

Ein absurdes Experiment

Adam Dunkels stellte sich die Frage: Wenn Claude Byte für Byte IP-Pakete liest und verarbeitet, wie schnell kann es auf einen Ping antworten? Die Antwort ist genauso lächerlich wie faszinierend: etwa 42 Sekunden Round-Trip-Time.

Die technische Umsetzung

Claude liest Pakete von einem /dev/tun0 Device, parst IP-Header, berechnet Checksummen und antwortet mit korrekt geformten ICMP Echo Replys. Das gesamte IP-Handling geschieht im LLM-Kontext – jedes Byte wird als Hex interpretiert, Header-Felder extrahiert, und die Antwort manuell konstruiert.

EMO: Mixture of Experts mit emergenter Modularität

Mon, 11 May 2026 00:00:00 +0000

EMO revolutioniert die Mixture-of-Experts-Architektur durch emergente Modularität: Anstatt Experten auf menschlich vordefinierte Domains zu beschränken, lernt das Modell selbstständig welche Experten sich zu funktionsfähigen Einheiten zusammenschließen. Das Resultat ist ein System, das mit nur 12.5% seiner Experten fast die volle Modell-Performance beibehält - ein Paradigmenwechsel für effiziente MoE-Deployment-Szenarien.

Was ist das Problem mit klassischen MoE-Modellen?

Moderne Sprachmodelle werden typischerweise als monolithische Systeme trainiert und deployed - ein riesiges Modell für alles. Aber in der Praxis braucht man oft nur spezifische Fähigkeiten: Code-Generierung, mathematisches Reasoning oder Fachwissen aus bestimmten Domains. Bei Modellen mit Billionen von Parametern wird das Laden des kompletten Modells für viele Anwendungen unpraktikabel. Das Hosting von Parametern, die man gar nicht braucht, verschwendet Rechenleistung und Speicher.

vLLM V1: Weniger Drift bei RL-Training

Mon, 11 May 2026 00:00:00 +0000

Die Migration-Problematik

Der Wechsel von vLLM V0 auf V1 ist kein einfaches Update, sondern ein fundamentaler Rewrite der Inference-Engine. Für Reinforcement Learning workloads wie GSPO oder PPO ist das kritisch: Jede Abweichung in der Logprob-Berechnung verändert die Trainingsdynamik.

Die vier kritischen Fixes

ServiceNow AI dokumentiert die notwendigen Anpassungen: Erstens muss logprobs-mode=processed_logprobs gesetzt werden, damit die Logprobs nach Temperatur und Sampling-Filtern berechnet werden. Zweitens gelten für V1 andere Runtime-Defaults. Drittens muss der Inflight-Weight-Update-Pfad angepasst werden. Viertens ist ein fp32 lm_head für die finale Projektion notwendig.

IBM Granite 4.1: Dense LLMs mit 512K Context

Sun, 10 May 2026 06:00:00 +0000

IBM veröffentlicht Granite 4.1 – eine Familie von Dense-LLMs unter Apache 2.0 Lizenz, trainiert auf 15 Trillionen Tokens mit einem raffinierten Five-Stage-Training-Pipeline.

Model-Größen

Granite 4.1 kommt in drei Größen:

Modell	Parameter	Embedding	Layer
3B	3 Milliarden	2560	40
8B	8 Milliarden	4096	40
30B	30 Milliarden	4096	64

Alle nutzen Grouped Query Attention (GQA), RoPE, SwiGLU und RMSNorm. Die 8B-Instruct-Variante erreicht ähnliche Performance wie Granite 4.0-H-Small (ein 32B MoE), trotz weniger Parameter.

Mixture-of-Experts mit emergenter Modularität: Allen AI veröffentlicht EMO

Sun, 10 May 2026 06:00:00 +0200

Emergente Expert-Spezialisierung ohne menschliche Labels

Allen AI veröffentlicht EMO (Emergent Mixture of Experts), ein neues MoE-Modell, das modular Struktur direkt aus den Daten lernt – ohne vordefinierte semantische Domains wie “Math”, “Code” oder “Biologie”. Trainiert auf 1 Billion Token mit 1B aktiven und 14B totalen Parametern (8-Expert-aktiv, 128-Expert-total).

Der Clou: Für einen gegebenen Task oder Domain können Nutzer nur einen kleinen Subset der Experten nutzen (12.5% der Experten) und behalten fast die volle Modell-Performance. Gleichzeitig bleibt EMO ein starkes General-Purpose-Modell, wenn alle Experten zusammen verwendet werden.

CyberSecQwen-4B: Spezialisiertes Sicherheitsmodell schlägt Cisco-8B-Baseline

Sat, 09 May 2026 00:00:00 +0000

Klein, lokal, leistungsstark

Ein neue 4-Milliarden-Parameter-Modell beweist, dass spezialisierte Fine-Tunes größere Generalisten schlagen können. CyberSecQwen-4B wurde für Cyber-Threat-Intelligence-Aufgaben trainiert und erreicht auf CTI-Bench +8.7 Punkte über Ciscos Foundation-Sec-Instruct-8B, bei halber Parameterzahl.

Warum lokale Modelle für Defensive Security wichtig sind

Frontier-Modelle sind teuer in der API-Nutzung, senden jeden Prompt an fremde Rechenzentren und weigern sich oft, die unangenehmen Edge-Cases zu bearbeiten, mit denen echte Verteidiger leben. Für Defensive Cybersecurity ist keiner dieser Tradeoffs akzeptabel:

EMO: Mixtur-of-Experts mit emergenter Modularität von Allen AI

Sat, 09 May 2026 00:00:00 +0000

Experten, die sich selbst organisieren

Allen AI hat EMO veröffentlicht, ein Mixture-of-Experts-Modell, dessen modulare Struktur direkt aus den Trainingsdaten entsteht, ohne menschlich definierte Prioritäten. EMO ermöglicht es, einen kleinen Teil seiner Experten für eine bestimmte Aufgabe zu nutzen, während die volle Modellleistung beibehalten wird.

Das Problem mit klassischen MoEs

MoE-Modelle enthalten viele kleinere Netzwerke, sogenannte Experten, und aktivieren nur einen kleinen Teil für jeden Input-Token. In der Praxis benötigen bestehende MoEs jedoch immer noch das vollständige Modell. Experten spezialisieren sich oft auf niedrig-level lexikalische Muster wie Präpositionen oder Satzzeichen, statt auf höhere Domänen oder Fähigkeiten.

Subquadratic: 12 Millionen Token Kontext ohne quadratische Kosten

Sat, 09 May 2026 00:00:00 +0000

Die Context-Window-Revolution

Die Aufmerksamkeitskosten bei Transformers skalieren quadratisch mit der Kontextlänge. Ein Start-up aus Miami behauptet nun, dieses fundamentale Problem gelöst zu haben: Subquadratic Selective Attention (SSA) skaliert linear – und das bei 12 Millionen Token Kontext.

Die Benchmarks

Auf MRCR v2, dem Multi-Reference Retrieval Benchmark, erreicht Subquadratic 83 Punkte und schlägt damit GPT-5.5 (74 Punkte) und Claude Opus 4.7 (32,2 Punkte). Die Needle-in-Haystack-Retrieval bei 12 Millionen Token liegt bei 92,1%. Das Modell ist 52-mal schneller als dense Attention bei einer Million Token.

Granite 4.1: IBMs Enterprise-LLMs mit 512K Kontext

Fri, 08 May 2026 00:00:00 +0000

IBM veröffentlicht Granite 4.1: Dense Decoder-LLMs in 3B, 8B und 30B mit Apache-2.0-Lizenz und beeindruckenden Benchmarks.

Kurzbeschreibung

Die neue Granite-Familie nutzt ein fünfstufiges Pretraining mit qualitätsorientiertem Data-Annealing. Das 8B-Modell schlägt das vorherige Granite 4.0-H-Small (32B MoE) trotz wenigerer Parameter – ein Triumph von Datenqualität über Skalierung.

Abstract

Granite 4.1 demonstriert, dass kleine Modelle mit rigoroser Datenkuratierung große Modelle schlagen können. Die Architektur nutzt Grouped Query Attention, RoPE-Embeddings, SwiGLU-Aktivierungen und shared Embeddings. Trainiert auf 15 Trillionen Tokens in fünf Phasen: Phase 1-2 bauen breites Sprachverständnis auf, Phase 3-4 nutzen Data Annealing mit qualitativ hochwertigem Content, und Phase 5 dehnt den Kontext auf 512K Tokens aus.

vLLM V1 Migration: Korrektheit vor Korrekturen im RL-Training

Fri, 08 May 2026 00:00:00 +0000

ServiceNow dokumentiert die Herausforderungen bei der Migration von vLLM V0 zu V1 für Reinforcement Learning Training.

Kurzbeschreibung

Der Wechsel von vLLM V0 auf V1 zeigte Trainingsinstabilitäten. Die Lösung: Semantische Logprob-Fixes, Runtime-Defaults und die korrekte float32 Projektion, bevor das RL-Objektiv angepasst wird.

Abstract

PipelineRL nutzt vLLM als Inference-Engine für Rollout-Generierung im RL-Training. Die Inference-Engine sampelt Tokens und liefert Logprobs; der Trainer nutzt diese für Policy-Ratios, KL, Clip-Rate und Reward. Jede Diskrepanz in der Logprob-Berechnung verändert die Trainingsdynamik – ein sogenannter Train-Inference Mismatch.

Chinesisches Modell Kimi K2.6 überrascht im Coding-Wettbewerb

Sun, 03 May 2026 00:00:00 +0000

Ein unerwarteter Sieger

Im laufenden AI Coding Contest hat das chinesische Modell Kimi K2.6 von Moonshot AI für eine Überraschung gesorgt: Es schlug Claude Opus 4.7, GPT-5.5 und Gemini Pro 3.1 in einem direkten Vergleich. Die Challenge war ein Word-Gem-Puzzle, bei dem KIs Buchstaben auf einem Gitter anordnen und gültige englische Wörter bilden mussten.

Die Ergebnisse: Kimi K2.6 erreichte 22 Match-Punkte mit einer Bilanz von 7-1-0. Auf Platz zwei landete MiMo V2-Pro von Xiaomi mit 20 Punkten. Erst auf den Plätzen drei bis fünf folgten die westlichen Modelle GPT-5.5, GLM 5.1 und Claude Opus 4.7.

KI-Evaluation wird zum neuen Compute-Engpass

Sun, 03 May 2026 00:00:00 +0000

Wenn Testen teurer wird als Training

Eine neue Analyse von Hugging Face und der EvalEval Coalition zeigt eine Verschiebung im KI-Landschaft: Die Kosten für Modell-Evaluation könnten bald die Trainingskosten übersteigen. Der Grund ist die zunehmende Komplexität von Agenten-Benchmarks und die Notwendigkeit wiederholter Läufe für zuverlässige Ergebnisse.

Konkret: Der Holistic Agent Leaderboard (HAL) gab etwa 40.000 Dollar aus, um 21.730 Agenten-Rollen über 9 Modelle und 9 Benchmarks zu testen. Ein einziger GAIA-Lauf mit einem Frontier-Modell kostet 2.829 Dollar – vor Caching. Exgentic gab 22.000 Dollar aus, um verschiedene Agenten-Konfigurationen zu testen, und fand einen Kostenspreizungsfaktor von 33x für identische Aufgaben.

VAKRA: Agenten unter der Lupe

Sat, 02 May 2026 18:00:00 +0200

IBM Research hat eine detaillierte Analyse der VAKRA-Benchmark veröffentlicht, die aufzeigt, wo aktuelle Sprachmodelle bei Tool-Nutzung und Reasoning scheitern.

Kurzbeschreibung

Die neue Analyse von IBM Research deckt die systematischen Fehlermuster auf, die bei der VAKRA-Agenten-Benchmark auftreten – von API-Missbrauch über Tool-Chain-Fehler bis zu Reasoning-Schwächen in mehrstufigen Workflows.

Abstract

Nach der Einführung von VAKRA im April 2026 folgt nun die tiefgehende Analyse der Ergebnisse. VAKRA testet AI-Agenten in unternehmensnahen Umgebungen mit über 8.000 lokal gehosteten APIs, 62 Domänen und natürlichen Tool-Use-Constraints. Die Aufgaben benötigen 3-7-Schritt-Reasoning-Ketten, die strukturierte API-Interaktion mit unstrukturierter Dokumentenretrieval kombinieren.

DeepInfra als neuer Inference-Provider auf Hugging Face

Fri, 01 May 2026 00:00:00 +0000

Hugging Face hat DeepInfra als neuen Inference-Provider in sein Ökosystem aufgenommen. DeepInfra ist eine serverlose KI-Inferenz-Plattform, die mit einem Katalog von über 100 Modellen eine der kostengünstigsten Preismodelle pro Token in der Branche anbietet.

Die Integration ermöglicht Entwicklern den Zugriff auf beliebte Open-Weight-LLMs wie DeepSeek V4, Kimi-K2.6 und GLM-5.1 direkt über die Hugging Face Hub-Modellseiten. Initial unterstützt DeepInfra Konversations- und Textgenerierungsaufgaben. Weitere Aufgaben wie Text-zu-Bild, Text-zu-Video und Embeddings werden in Kürze folgen.

IBMs Granite 4.1: Open-Source LLMs für Enterprise

Wed, 29 Apr 2026 00:00:00 +0000

IBM stellt Granite 4.1 vor - eine Familie von Dense-LLMs in drei Grössen (3B, 8B, 30B), alle unter Apache 2.0 Lizenz. Der 8B Instruct übertrifft den Vorgänger Granite 4.0-H-Small (32B MoE), trotz weniger Parameter.

Trainingspipeline

Die Modelle wurden auf ~15 Billionen Token trainiert, verteilt auf fünf Phasen:

Phase 1-2: Generelles Pre-Training (10T Token)
Phase 3-4: Mid-Training mit qualitätsveredelten Daten
Phase 5: Long-Context Training bis 512K Token

Architektur

Granite 4.1 nutzt Grouped Query Attention (GQA), Rotary Position Embeddings (RoPE), SwiGLU-Aktivierungen und RMSNorm. Geteilte Input/Output Embeddings reduzieren Parameter.

NVIDIA Nemotron 3 Nano Omni: Multimodal fuer Dokumente, Audio und Video

Wed, 29 Apr 2026 00:00:00 +0000

NVIDIA stellte Nemotron 3 Nano Omni vor, ein omni-modales Verstaendnismodell fuer Text, Bild, Video und Audio. Es erweitert die Nemotron-Produktlinie von einem reinen Vision-Language-System zu einem echten Alleskoenner.

Best-in-Class Benchmarks

Nemotron 3 Nano Omni liefert Top-Ergebnisse auf:

MMlongbench-Doc: Komplexe Dokumentenanalyse
OCRBenchV2: Texterkennung und -verstaendnis
WorldSense: Video-Understanding
DailyOmni: Multimodale Alltagsszenarien

Das Modell verarbeitet nicht nur Text und Bilder, sondern auch:

Dokumenten-PDFs mit Layout-Verstaendnis
Audio-Streams fuer Speech Recognition
Videos mit temporaler Reasoning
Kombinationen aller Modalitaeten

Fuer Agenten optimiert

Die Architektur zielt auf Agenten-Workloads ab:

NVIDIA Nemotron 3 Nano Omni: Multimodal für Agenten

Tue, 28 Apr 2026 18:00:00 +0200

NVIDIA erweitert die Nemotron-Familie mit Nemotron 3 Nano Omni, einem omni-modalen Verständnismodell für Text, Bild, Video und Audio. Das Modell ist spezifisch für reale Dokumentenanalyse, Multi-Image-Reasoning, automatische Spracherkennung, lange Audio-Video-Verarbeitung und Agenten-Computer-Use optimiert.

Auf komplexen Dokumenten-Intelligence-Leaderboards erzielt das Modell Top-Ergebnisse: MMLongBench-Doc, OCRBenchV2, WorldSense für Video und DailyOmni für Audio. Die Architektur wurde mit Fokus auf Effizienz und Desktop-Deployment entwickelt. Nemotron 3 Nano Omni läuft auf einzelnen Consumer-GPUs und ist damit für Entwickler zugänglicher als typische Enterprise-Modelle.

OpenAI Privacy Filter: Skalierbare Web-Apps mit PII-Erkennung

Tue, 28 Apr 2026 00:00:00 +0000

OpenAI hat seinen Privacy Filter auf Hugging Face veröffentlicht. Das 1,5 Milliarden Parameter-Modell mit 50 Millionen aktiven Parametern erkennt persönlich identifizierbare Informationen (PII) in einem einzigen Forward-Pass über 128.000 Token Kontext.

Acht PII-Kategorien

Das Modell deckt acht Kategorien ab: private_person, private_address, private_email, private_phone, private_url, private_date, account_number und secret. Die BIOES-Kodierung sorgt für saubere Span-Grenzen auch bei langen, mehrdeutigen Textpassagen.

Besonders bemerkenswert: Der gesamte Dokumentinhalt wird ohne Chunking verarbeitet, was bedeutet, dass Span-Offsets direkt mit dem gerenderten Text übereinstimmen. Kein Zusammenfügen fragmentierter Ergebnisse mehr.

Wie Googles TPUs die moderne KI antreiben

Mon, 27 Apr 2026 18:00:00 +0200

Google hat ein neues Erklärvideo veröffentlicht, das die Funktionsweise der Tensor Processing Units (TPUs) illuminier – der maßgeschneiderten Chips, die hinter fast allen Google-Produkten stehen.

TPUs wurden vor über einem Jahrzehnt speziell für KI-Modelle entwickelt. Im Gegensatz zu generischen CPUs oder GPUs sind sie auf eine Aufgabe optimiert: komplexe mathematische Operationen in extremem Maßstab auszuführen. Für neuronale Netze bedeutet das vor allem Matrix-Multiplikationen, die TPUs deutlich schneller bewältigen als herkömmliche Hardware.

SWE-bench Verified verliert an Aussagekraft für Frontier-Modelle

Mon, 27 Apr 2026 00:00:00 +0000

SWE-bench Verified verliert an Aussagekraft für Frontier-Modelle

Die Bewertungslandschaft für KI-Modelle verändert sich rasant. OpenAI hat bekanntgegeben, dass sie SWE-bench Verified nicht mehr zur Evaluierung ihrer Frontier-Modelle verwenden werden. Der Grund: Der Benchmark misst nicht mehr das, was moderne Coding-Assistenten tatsächlich können.

Was ist SWE-bench Verified?

SWE-bench Verified war lange Zeit der Standard für die Bewertung von Software-Engineering-Fähigkeiten bei KI-Modellen. Der Test misst, wie gut ein Modell echte GitHub-Issues versteht und entsprechende Pull Requests erstellen kann. Die Aufgaben umfassen Bugfixes, Feature-Implementierungen und Refactorings aus realen Open-Source-Projekten.

Granite 4.0 3B Vision: IBMs kompakter VLM für Enterprise-Dokumente

Sun, 26 Apr 2026 00:00:00 +0000

Spezialist statt Generalist

Granite 4.0 3B Vision geht einen anderen Weg als die meisten Vision-Language-Modelle. Statt alles zu können, fokussiert sich das 3-Milliarden-Parameter-Modell auf eine kritische Enterprise-Anforderung: Das zuverlässige Extrahieren strukturierter Informationen aus komplexen Dokumenten.

Die Kernfähigkeiten sind praxisorientiert: Tabellenextraktion aus mehrzeiligen und mehrspaltigen Strukturen, Chart-Verständnis mit Umwandlung in strukturierte Formate, und semantische Key-Value-Pair-Extraction über diverse Dokumentlayouts hinweg. Das Modell gibt es als LoRA-Adapter auf Basis von Granite 4.0 Micro – eine modulare Architektur, die Vision und Language trennt und Fallbacks auf reinen Text erlaubt.

VAKRA: Enterprise-Agent-Benchmark mit echten APIs

Sun, 26 Apr 2026 00:00:00 +0000

VAKRA von IBM Research ist ein tool-gegroundetes, ausführbares Benchmark, das misst, wie gut KI-Agenten in unternehmensähnlichen Umgebungen denken und handeln können. Im Gegensatz zu traditionellen Benchmarks, die isolierte Fähigkeiten testen, misst VAKRA kompositionelle Überlegungen über APIs und Dokumente und nutzt vollständige Ausführungstraces.

Die Architektur hinter VAKRA

Das Benchmark stellt eine ausführbare Umgebung bereit, in der Agenten mit über 8.000+ lokal gehosteten APIs interagieren, unterstützt durch echte Datenbanken, die 62 Domänen abdecken, sowie domänenausgerichtete Dokumentensammlungen. Aufgaben können 3-7 stufige Reasoning-Ketten erfordern, die strukturierte API-Interaktion mit unstrukturierter Abfrage unter natürlichsprachlichen Tool-Use-Bedingungen kombinieren.

DeepSeek-V4: Millionen-Token-Kontext für Agenten

Sat, 25 Apr 2026 00:00:00 +0000

DeepSeek hat V4 veröffentlicht. Zwei MoE-Checkpoints sind verfügbar: DeepSeek-V4-Pro mit 1.6T Parametern und DeepSeek-V4-Flash mit 284B Parametern. Beide bieten ein 1M-Token-Kontextfenster.

Die Innovation

Die eigentliche Leistung ist nicht der Benchmark-Score – die konkurrieren mit anderen Frontier-Modellen – sondern die effiziente Langkontext-Inferenz. DeepSeek V4 ist explizit für agentische Workloads konstruiert, die heute noch an bekannten Problemen scheitern.

Das KV-Cache-Problem

Ein 1M-Kontextfenster ist Speicherkapazität, nicht Performance. Agenten, die lange Tool-Use-Trajektorien durchlaufen, benötigen effiziente Attention. DeepSeek-V4-Pro braucht nur 27% der Inferenz-FLOPs und 10% des KV-Cache im Vergleich zu V3.2. V4-Flash erreicht sogar 10% FLOPs und 7% KV-Cache.

Gemini 3.1 Flash TTS: Expressive Sprachsynthese trifft Präzision

Sat, 25 Apr 2026 00:00:00 +0000

Sprachsynthese mit Regisseur-Stuhl

Text-to-Speech war lange eine Black Box: Du gibst Text ein, bekommst Audio. Feinsteuerung? Fehlanzeige. Gemini 3.1 Flash TTS ändert das grundlegend.

Google nennt es Audio Tags – ein intuitives System, um Sprachausgabe mit natürlicher Sprache zu steuern. Stell dir vor, du bist Regisseur: Du gibst Szenenanweisungen, definierst die Umgebung, sagst Akustikern, wie sie sprechen sollen. Alles direkt im Textinput.

Die Features im Detail

Szenen-Regie: Setze die Bühne, definiere die Umgebung, gib spezifische Dialoganweisungen. Charaktere bleiben “in-role” und reagieren natürlich über mehrere Dialogrunden.

Googles Veo 3.1 Lite: Kostengünstige Video-Generierung für Entwickler

Sat, 25 Apr 2026 00:00:00 +0000

Google hat Veo 3.1 Lite veröffentlicht, das kostengünstigste Modell der Veo-3.1-Familie. Entwickler können nun hochvolumige Videoanwendungen zu weniger als 50% der Kosten von Veo 3.1 Fast erstellen.

Das Modell

Veo 3.1 Lite bietet Text-zu-Video und Bild-zu-Video Generierung. Unterstützt werden sowohl Landschafts- (16:9) als auch Hochformat-Videos (9:16) in 720p und 1080p Auflösung. Die Videolänge ist anpassbar zwischen 4, 6 und 8 Sekunden, wobei die Kosten entsprechend variieren.

Preisstruktur

Das Modell positioniert sich als Einsteigeroption für Video-Generierung. Die Kosten liegen unter der Hälfte von Veo 3.1 Fast bei gleicher Geschwindigkeit. Ab dem 7. April werden zusätzlich die Preise für Veo 3.1 Fast gesenkt.

DeepSeek-V4-Flash: 13B aktivierte Parameter für lokale KI

Fri, 24 Apr 2026 00:00:00 +0000

MoE-Effizienz für den Massenmarkt

Neben dem Pro-Modell bringt DeepSeek mit V4-Flash eine kompaktere Variante, die sich an Entwickler mit begrenzter Hardware richtet. Mit 284B Gesamt-Parametern aber nur 13B aktivierten Parametern pro Inference-Durchlauf ist das Modell deutlich ressourcenschonender – bei trotzdem starken Reasoning-Fähigkeiten.

Das Modell nutzt die gleiche Hybrid Attention Architecture wie der Pro-Bruder, erreicht aber bei größeren Denk-Budgets ähnliche Reasoning-Performance. Der Trade-off: Bei reinen Wissens-Aufgaben und komplexen Agenten-Workflows hinkt es natürlicherweise hinterher.

DeepSeek-V4: Millionen-Token-Kontext终于 nutzbar für Agenten

Fri, 24 Apr 2026 00:00:00 +0000

Nicht die Benchmarks zählen – die Effizienz

DeepSeek hat V4 veröffentlicht: zwei MoE-Modelle (DeepSeek-V4-Pro mit 1.6T/49B und DeepSeek-V4-Flash mit 284B/13B), beide mit 1 Million Token Kontext. Die Benchmarks sind kompetitiv, aber nicht SOTA. Das ist aber nicht der Punkt.

Das echte Problem: Agenten scheitern vorhersehbar. Das Modell stoppt mid-task. Der Trace sprengt das Context-Budget. Der KV-Cache füllt die GPU. Tool-Call-Roundtrips degradieren nach Hunderten von Befehlen. V4 wurde gebaut, um diese bekannten Failures zu fixen.

Gemma 4 VLA auf Jetson Orin Nano: Sprachgesteuerte Vision auf 8GB

Thu, 23 Apr 2026 00:00:00 +0000

Ein VLA, der mitdenkt

Sprich mit Gemma 4, und sie entscheidet selbstständig, ob sie durch die Webcam schauen muss, um deine Frage zu beantworten. Keine Keyword-Trigger, keine hardcoded Logik – pures Modell-Reasoning.

Der Pipeline:

Du sprichst → Parakeet STT → Gemma 4 → [Webcam wenn nötig] → Kokoro TTS → Speaker

Auf einem NVIDIA Jetson Orin Nano Super mit 8GB RAM. Kein Cloud-Call, alles lokal.

Besonderheit: Das Modell beschreibt nicht einfach das Bild – es beantwortet deine Frage mit dem visuellen Kontext. Fragst du “Was liegt auf dem Tisch?”, entscheidet Gemma selbst, einen Snapshot zu machen, interpretiert ihn und antwortet.

ChatGPT Images 2.0 – OpenAI hebt nach

Wed, 22 Apr 2026 00:00:00 +0000

Besser spät als nie

OpenAI kündigt ChatGPT Images 2.0 an. Nach Monaten, in denen Midjourney, Flux und Stable Diffusion die Bildgenerierung dominierten, zieht OpenAI nach.

Was wir wissen (HN-Infos):

Direkt in ChatGPT integriert
Höhere Qualität als DALL-E 3
Bessere Text-Rendering im Bild
Konsistente Stile über mehrere Bilder

Der Kontext: DALL-E 3 war solide, aber hinter der Konkurrenz. Text im Bild? Mist. Konsistente Charaktere? Glücksspiel. Midjourney hatte v6, Flux lief lokal, OpenAI hatte… DALL-E mit Cartoon-Vibes.

Gemma 4: Multimodal KI läuft auf dem Handy

Wed, 22 Apr 2026 00:00:00 +0000

Google DeepMind öffnet die Toolbox

Nach Gemma 1, 2 und 3 ist jetzt Version 4 da – und die macht einen gewaltigen Sprung. Die neue Modell-Familie von Google DeepMind ist multimodal, für Endgeräte optimiert und kommt in vier Größen.

Was neu ist:

Audio-Support bei den kleinen Modellen (E2B, E4B)
Variable Aspect Ratios für Bilder – Flexibilität statt Starres Format
Lange Kontexte – bis zu 128k Tokens
Apache 2.0 Lizenz – wirklich offen, nicht nur Marketing-Sprech

Die Größen:

Qwen3.6-27B: Top-Tier Coding ohne MoE-Overhead

Wed, 22 Apr 2026 00:00:00 +0000

Größe ist nicht alles

Qwen3.6-27B beweist es: 27 Milliarden Parameter reichen für Flagship-Level Coding. Das neue Dense-Modell von Alibaba übertrifft seinen Vorgänger Qwen3.5-397B-A17B – ein MoE-Riese mit 397B Gesamt-Parametern – in allen Coding-Benchmarks.

Die Zahlen:

SWE-bench Verified: 77.2 (vs 76.2 vom MoE-Gigant)
SWE-bench Pro: 53.5 vs 50.9
Terminal-Bench 2.0: 59.3 vs 52.5
SkillsBench: 48.2 vs 30.0

Warum das wichtig ist: MoE-Modelle (Mixture of Experts) sind schwer zu deployen. Routing-Komplexität, Memory-Fragmentierung, spezielle Inferenz-Stacks. Dense-Modelle wie Qwen3.6-27B laufen auf Standard-Setups – llama.cpp, vLLM, MLX.