<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Models on CHAOSNODE</title><link>https://chaosnode.de/models/</link><description>Recent content in Models on CHAOSNODE</description><generator>Hugo</generator><language>en-us</language><lastBuildDate>Fri, 05 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://chaosnode.de/models/index.xml" rel="self" type="application/rss+xml"/><item><title>Google KI-Updates im Mai 2026: Gemini 3.5 und Omni</title><link>https://chaosnode.de/models/google-ai-updates-may-2026/</link><pubDate>Fri, 05 Jun 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/google-ai-updates-may-2026/</guid><description>&lt;p>Der Mai 2026 war vollgepackt mit KI-Ankündigungen von Google. Die Google I/O markierte den Eintritt in die &amp;ldquo;Agentic Gemini Ära&amp;rdquo; mit Gemini 3.5 und Gemini Omni.&lt;/p>
&lt;h2 id="gemini-35-agentische-intelligenz">Gemini 3.5: Agentische Intelligenz&lt;/h2>
&lt;p>Die neueste Modellfamilie kombiniert Frontier-Intelligenz mit Aktionsfähigkeit. Gemini 3.5 soll komplexe, mehrstufige Workflows über Apps hinweg zuverlässig ausführen - nicht nur Antworten generieren, sondern Aufgaben erledigen.&lt;/p>
&lt;h2 id="gemini-omni-multimodale-erstellung">Gemini Omni: Multimodale Erstellung&lt;/h2>
&lt;p>Omni kann aus jeder Kombination von Bildern, Audio, Video und Text hochwertige Videos erstellen - basierend auf Gemini&amp;rsquo;s Weltwissen. Ein Sprung von reiner Analyse zu echter Erstellung.&lt;/p></description></item><item><title>EVA-Bench Data 2.0: Agenten-Benchmark mit 213 Szenarien</title><link>https://chaosnode.de/models/eva-bench/</link><pubDate>Thu, 04 Jun 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/eva-bench/</guid><description>&lt;p>ServiceNow AI veröffentlicht &lt;strong>EVA-Bench Data 2.0&lt;/strong>, ein umfassender Benchmark für AI-Agenten mit &lt;strong>3 Domains, 121 Tools, 213 Szenarien&lt;/strong> – realistische Multi-Step-Workflows zur Evaluation von Tool-Use und Reasoning.&lt;/p>
&lt;h2 id="was-misst-eva-bench">Was misst EVA-Bench?&lt;/h2>
&lt;p>Agenten-Benchmarks sind oft zu abstrakt. EVA-Bench testet mit echten Enterprise-Workflows:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>3 Domains&lt;/strong>: Service Management, HR Operations, IT Operations&lt;/li>
&lt;li>&lt;strong>121 Tools&lt;/strong>: APIs, Datenbanken, externe Services&lt;/li>
&lt;li>&lt;strong>213 Szenarien&lt;/strong>: Multi-step Tasks mit Dependencies&lt;/li>
&lt;/ul>
&lt;p>Jedes Szenario hat:&lt;/p>
&lt;ul>
&lt;li>Natural Language Prompt&lt;/li>
&lt;li>Tool-Definitionen&lt;/li>
&lt;li>Erwarteter Success-Path&lt;/li>
&lt;li>Ground-Truth-Outputs&lt;/li>
&lt;/ul>
&lt;h2 id="warum-relevant">Warum relevant?&lt;/h2>
&lt;p>Die meisten Agenten-Benchmarks (WebShop, Mind2Web) focusieren auf Web-Interaktion. EVA-Bench bringt &lt;strong>Enterprise-Tool-Orchestration&lt;/strong> in den Fokus:&lt;/p></description></item><item><title>Gemma 4 12B: Encoder-freies multimodales Modell für Laptops</title><link>https://chaosnode.de/models/gemma-article/</link><pubDate>Thu, 04 Jun 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/gemma-article/</guid><description>&lt;p>Google DeepMind veröffentlicht &lt;strong>Gemma 4 12B&lt;/strong>, ein multimodales Modell mit encoder-freier Unified-Transformer-Architektur, das auf Laptops mit nur 16GB VRAM/Unified Memory läuft.&lt;/p>
&lt;h2 id="architektur-revolution">Architektur-Revolution&lt;/h2>
&lt;p>Traditionelle multimodale Modelle nutzen separate Encoder für Bild und Audio, dann einen Language Model Backbone. Gemma 4 12B bricht damit: Vision- und Audio-Inputs fließen &lt;strong>direkt in den LLM-Backbone&lt;/strong> – keine Encoder-Zwischenschicht, weniger Overhead, weniger Latenz.&lt;/p>
&lt;p>Das ist Googles erstes mid-sized Modell mit &lt;strong>nativen Audio-Inputs&lt;/strong>.&lt;/p>
&lt;h2 id="performance--hardware">Performance &amp;amp; Hardware&lt;/h2>
&lt;p>Benchmark-Ergebnisse nähern sich dem größeren &lt;strong>26B MoE-Modell&lt;/strong> bei weniger als halbem Memory-Footprint. Das Modell positioniert sich zwischen:&lt;/p></description></item><item><title>hf CLI: 6x weniger Tokens für Coding Agents</title><link>https://chaosnode.de/models/hf-cli-agents/</link><pubDate>Thu, 04 Jun 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/hf-cli-agents/</guid><description>&lt;p>Hugging Face überarbeitet die &lt;strong>hf CLI&lt;/strong> für Coding Agents. Das Ergebnis: Bei komplexen Multi-Step-Tasks verbrauchen Agents mit CLI &lt;strong>6x weniger Tokens&lt;/strong> als curl/SDK-Baselines.&lt;/p>
&lt;h2 id="agent-traffic-auf-dem-hub">Agent-Traffic auf dem Hub&lt;/h2>
&lt;p>Seit April 2026 trackt HF Agent-Usage via Environment-Variables:&lt;/p>
&lt;ul>
&lt;li>&lt;code>CLAUDECODE&lt;/code>/&lt;code>CLAUDE_CODE&lt;/code> für Claude Code&lt;/li>
&lt;li>&lt;code>CODEX_SANDBOX&lt;/code> für Codex&lt;/li>
&lt;li>Plus Cursor, Gemini, Pi, und universell &lt;code>AI_AGENT&lt;/code>&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>Leaderboard (Distinct Users)&lt;/strong>:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Claude Code&lt;/strong>: 39.5k Users, 48.6M Requests&lt;/li>
&lt;li>&lt;strong>Codex&lt;/strong>: 34.8k Users, 36.4M Requests&lt;/li>
&lt;li>weite Lücke zu antigravity, cursor-cli, openclaw&amp;hellip;&lt;/li>
&lt;/ol>
&lt;p>Claude Code + Codex dominieren die Agenten-Interaktion mit dem Hub.&lt;/p></description></item><item><title>KVarN: Native vLLM KV-Cache Quantisierung mit 3-5x mehr Kontext</title><link>https://chaosnode.de/models/kvarn-vllm-kv-cache-quantization/</link><pubDate>Thu, 04 Jun 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/kvarn-vllm-kv-cache-quantization/</guid><description>&lt;p>Huawei veröffentlicht &lt;strong>KVarN&lt;/strong>, einen nativen KV-Cache-Quantisierungs-Backend für vLLM, der &lt;strong>3-5x mehr KV-Cache-Kapazität&lt;/strong> bietet – bei &lt;strong>FP16-Genauigkeit&lt;/strong> und sogar &lt;strong>höherem Durchsatz&lt;/strong> als Full-Precision.&lt;/p>
&lt;h2 id="das-problem">Das Problem&lt;/h2>
&lt;p>KV-Cache-Quantisierung ist ein Kompromiss. Bestehende Methoden wie TurboQuant gewinnen zwar Kapazität (2.3-3.7x), verlieren aber &lt;strong>40-52% Durchsatz&lt;/strong> und opfern Genauigkeit bei aggressiven Low-Bit-Raten. Für Produktionseinsätze unbrauchbar.&lt;/p>
&lt;h2 id="kvarns-lösung">KVarNs Lösung&lt;/h2>
&lt;p>Die varianz-normalisierte Quantisierung nutzt eine vierschrittige Pipeline pro Tile:&lt;/p>
&lt;ol>
&lt;li>&lt;strong>Cache&lt;/strong>: Raw fp16 KV-Tile aus Attention&lt;/li>
&lt;li>&lt;strong>Rotated Cache&lt;/strong>: Hadamard-Rotation verteilt Outlier kanalübergreifend&lt;/li>
&lt;li>&lt;strong>Normalized Cache&lt;/strong>: Iterative Varianz-Normalisierung (Sinkhorn-artig) gleicht Varianz aus&lt;/li>
&lt;li>&lt;strong>Quantized Cache&lt;/strong>: Asymmetrisches Round-to-Nearest mit 4-bit Keys, 2-bit Values&lt;/li>
&lt;/ol>
&lt;p>Das Resultat: &lt;strong>Oberes rechtes Viertel&lt;/strong> der Pareto-Front, wo andere Methoden nicht hinkommen – FP16-Genauigkeit &lt;em>und&lt;/em> FP16-Durchsatz &lt;em>und&lt;/em> mehrfacher Kontext.&lt;/p></description></item><item><title>Nemotron 3.5 ASR: Multilingual Speech-to-Text für 40 Sprachen</title><link>https://chaosnode.de/models/nemotron-asr/</link><pubDate>Thu, 04 Jun 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/nemotron-asr/</guid><description>&lt;p>NVIDIA veröffentlicht &lt;strong>Nemotron 3.5 ASR streaming multilingual&lt;/strong>, ein 600M-Parameter Speech-to-Text-Modell, das &lt;strong>40 Language-Locales aus einem einzigen Checkpoint&lt;/strong> in Echtzeit transkribiert – mit integrierter Interpunktion und Groß-/Kleinschreibung.&lt;/p>
&lt;h2 id="performance-positionierung">Performance-Positionierung&lt;/h2>
&lt;p>Der Nachfolger des beliebten Nemotron 3 ASR (nur Englisch) erreicht bei &lt;strong>Artificial Analysis&lt;/strong>:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Platz 2 bei Latency&lt;/strong> unter allen Streaming-ASR-Modellen&lt;/li>
&lt;li>&lt;strong>0.07 Sekunden&lt;/strong> bis Final Transcript nach Sprachende&lt;/li>
&lt;li>&lt;strong>&amp;ldquo;Most attractive quadrant&amp;rdquo;&lt;/strong> im AA-WER Streaming Index vs. Time to Final Transcription&lt;/li>
&lt;/ul>
&lt;h2 id="architektur">Architektur&lt;/h2>
&lt;p>Cache-Aware &lt;strong>FastConformer-RNNT&lt;/strong> mit einzigartigem Streaming: Audio wird ohne redundante Neuberechnung gestreamt (bei den meisten Streaming-ASR der Bottleneck). Das Resultat: &lt;strong>Low Latency AND High Accuracy&lt;/strong>, kein Tradeoff.&lt;/p></description></item><item><title>DPO Beyond Chatbots: Wenn Modelle aus Fehlern lernen</title><link>https://chaosnode.de/models/dpo-beyond-chatbots-dharma-ocr/</link><pubDate>Wed, 03 Jun 2026 18:00:00 +0000</pubDate><guid>https://chaosnode.de/models/dpo-beyond-chatbots-dharma-ocr/</guid><description>&lt;p>Direct Preference Optimization (DPO) wird meistens für Chat-Alignment eingesetzt – aber DharmaAI zeigt mit DharmaOCR, dass DPO auch für strukturierte OCR-Tasks funktioniert. Der entscheidende Punkt: Anstatt subjektive menschliche Bewertungen zu nutzen, verwendet DharmaOCR ein binäres Signal aus dem Model selbst – korrekte Transkription gewählt, Degeneration-Schleife verworfen.&lt;/p>
&lt;p>Die Ergebnisse sprechen für sich: DPO reduzierte die Text-Degeneration in allen getesteten Modellfamilien – durchschnittlich um 59,4%, im besten Fall um 87.6% (Nanonets-OCR2-3B: von 1.61% auf 0.20%). Warum SFT allein eine Ceiling hat? SFT trainiert token-weise, aber Degeneration ist ein Completion-Level-Fehler – das Model sieht nie die Schleife als Ganzes als &amp;ldquo;falsch&amp;rdquo; markiert. DPO dreht diese Logik um: Das Training-Signal ist der komplette Output.&lt;/p></description></item><item><title>MCP Tools für Reachy Mini: Robot-Fähigkeiten via Hugging Face Spaces</title><link>https://chaosnode.de/models/mcp-tools-reachy-mini/</link><pubDate>Wed, 03 Jun 2026 18:00:00 +0000</pubDate><guid>https://chaosnode.de/models/mcp-tools-reachy-mini/</guid><description>&lt;p>Der Reachy Mini Roboter kann jetzt Tools nutzen, die in öffentlichen Hugging Face Spaces gehostet werden – aufgerufen via MCP (Model Context Protocol). Statt Code lokal zu bearbeiten, genügt ein Befehl: &lt;code>reachy-mini-conversation-app tool-spaces add pollen-robotics/reachy-mini-weather-tool&lt;/code> und der Roboter kann Wetter abrufen. Das Tool läuft im Space, nichts wird heruntergeladen.&lt;/p>
&lt;p>Die Architektur nutzt Profile zur Zugriffskontrolle: &lt;code>instructions.txt&lt;/code> definiert den Prompt, &lt;code>tools.txt&lt;/code> listet die aktivierten Tools. Jedes Tool hat einen Namen und eine Beschreibung – das Model entscheidet, wann es nützlich ist, ruft es auf und nutzt das Ergebnis. Eingebaute Tools steuern den Roboter-Körper: &lt;code>move_head&lt;/code>, &lt;code>dance&lt;/code>, &lt;code>play_emotion&lt;/code>, &lt;code>camera&lt;/code>, &lt;code>head_tracking&lt;/code>.&lt;/p></description></item><item><title>MAI-Code-1-Flash: Microsofts neues Coding-Modell</title><link>https://chaosnode.de/models/mai-code-1-flash-microsofts-neues-coding-modell/</link><pubDate>Wed, 03 Jun 2026 06:00:00 +0000</pubDate><guid>https://chaosnode.de/models/mai-code-1-flash-microsofts-neues-coding-modell/</guid><description>&lt;p>Microsoft führt MAI-Code-1-Flash ein – ein effizientes Coding-Modell, das speziell für GitHub Copilot optimiert ist. Das Besondere: Es wurde direkt mit den Copilot-Harnesses aus der Produktion trainiert, nicht nur für Benchmarks. Das Modell passt seine Antwortlänge adaptiv an: bei einfachen Queries bleibt es kurz, bei komplexen Aufgaben investiert es mehr Reasoning-Budget.&lt;/p>
&lt;p>Die Benchmarks zeigen beeindruckende Ergebnisse: Auf SWE-Bench Pro erreicht MAI-Code-1-Flash 51,2% – ein +16 Punkte Vorsprung gegenüber Claude Haiku 4.5 bei 35,2%. Noch bemerkenswerter: Es löst härtere Probleme mit bis zu 60% weniger Token, was die Kosten drastisch senkt und die Latenz in interaktiven Workflows verbessert.&lt;/p></description></item><item><title>Holo3.1: Schnelle lokale Computer-Use-Agenten</title><link>https://chaosnode.de/models/holo31-fast-local-computer-use-agents/</link><pubDate>Tue, 02 Jun 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/holo31-fast-local-computer-use-agents/</guid><description>&lt;p>H Company hat Holo3.1 veröffentlicht, eine Familie von Computer-Use-Modellen, die sich durch verbesserte Robustheit über verschiedene Umgebungen hinweg auszeichnet. Neu sind quantisierte Checkpoints für lokale Inferenz, darunter FP8, Q4 GGUF und NVFP4 Formate.&lt;/p>
&lt;p>Die Modelle basieren auf der Qwen-Familie und unterstützen nun erstmals Mobile-Automatisierung. Auf AndroidWorld verbesserte sich das 35B-A3B Modell von 67% auf 79,3% Erfolgsrate. Die kleineren 4B und 9B Varianten steigerten sich ebenfalls signifikant von 58% auf 72%.&lt;/p></description></item><item><title>Delta Weight Sync: Wie TRL die Bandbreite beim asynchronen RL reduziert</title><link>https://chaosnode.de/models/delta-weight-sync-trl-2026-06-01/</link><pubDate>Mon, 01 Jun 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/delta-weight-sync-trl-2026-06-01/</guid><description>&lt;p>Asynchrones Reinforcement Learning mit großen Sprachmodellen steht vor einem fundamentalen Problem: Bei jedem Trainingsschritt müssen aktualisierte Gewichte übertragen werden.&lt;/p>
&lt;h2 id="kurzbeschreibung">Kurzbeschreibung&lt;/h2>
&lt;p>HuggingFace stellt mit Delta Weight Sync eine elegante Lösung vor, die die Datentransfers drastisch reduziert – von Gigabytes zu Megabytes.&lt;/p>
&lt;h2 id="abstract">Abstract&lt;/h2>
&lt;p>Bei asynchronem Reinforcement Learning mit großen Sprachmodellen müssen bei jedem Trainingsschritt die aktualisierten Modellgewichte vom Trainer zur Inference-Engine übertragen werden. Bei modernen Modellen bedeutet das Gigabytes an Daten, während die Inference-Engine wartet und wertvolle GPU-Rechenzeit verstreicht.&lt;/p></description></item><item><title>Gemini Omni und Gemini 3.5 Flash: Googles neue KI-Generation</title><link>https://chaosnode.de/models/gemini-omni-3-5-flash-2026-06-01/</link><pubDate>Mon, 01 Jun 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/gemini-omni-3-5-flash-2026-06-01/</guid><description>&lt;p>Auf der Google I/O 2026 präsentierte das Unternehmen zwei bahnbrechende KI-Modelle, die unterschiedliche Schwerpunkte setzen.&lt;/p>
&lt;h2 id="kurzbeschreibung">Kurzbeschreibung&lt;/h2>
&lt;p>Google führt mit Gemini Omni und 3.5 Flash zwei neue Modelle ein: eines für kreative Videobearbeitung und eines für agentische Workflows.&lt;/p>
&lt;h2 id="abstract">Abstract&lt;/h2>
&lt;p>Gemini Omni ist ein multimodales Modell, das aus beliebigen Eingaben – Bilder, Audio, Video und Text – hochwertige Videos erstellen kann. Besonders beeindruckend ist die Fähigkeit zur konversationellen Videobearbeitung: Charaktere bleiben konsistent, die Physik stimmt, und Szenen erinnern sich an vorherige Anweisungen. Die Demos zeigen Transformationen von Skulpturen aus Seifenblasen und rekursive Videoeffekte.&lt;/p></description></item><item><title>ITBench-AA: Enterprise-IT-Benchmark zeigt Schwächen aller KI-Modelle</title><link>https://chaosnode.de/models/itbench-agenten-benchmark-2026-06-01/</link><pubDate>Mon, 01 Jun 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/itbench-agenten-benchmark-2026-06-01/</guid><description>&lt;p>Künstliche Intelligenz revolutioniert Unternehmen, aber wie gut schlagen sich KI-Agenten bei echten IT-Aufgaben? Ein neuer Benchmark liefert überraschende Ergebnisse.&lt;/p>
&lt;h2 id="kurzbeschreibung">Kurzbeschreibung&lt;/h2>
&lt;p>Artificial Analysis und IBM stellen mit ITBench-AA den ersten Benchmark für agentische Enterprise-IT-Aufgaben vor – mit dem ernüchternden Ergebnis, dass kein Modell die 50%-Hürde erreicht.&lt;/p>
&lt;h2 id="abstract">Abstract&lt;/h2>
&lt;p>ITBench-AA ist ein bahnbrechender Benchmark, der speziell für komplexe Enterprise-IT-Aufgaben entwickelt wurde. Die initiale Version konzentriert sich auf Site Reliability Engineering (SRE), wobei Modelle Kubernetes-Incident-Snapshots analysieren und Root Causes identifizieren müssen. Insgesamt 59 Aufgaben – 40 öffentliche und 19 held-out – decken typische Fehlermodi wie Ressourcenquoten-Erschöpfung, Rollout-Fehler, Connection-Pool-Probleme und Netzwerkpartitionen ab.&lt;/p></description></item><item><title>Mellum2: JetBains effizientes Mixture-of-Experts Modell</title><link>https://chaosnode.de/models/mellum2-jetbrains-12b-moe-2026-06-01/</link><pubDate>Mon, 01 Jun 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/mellum2-jetbrains-12b-moe-2026-06-01/</guid><description>&lt;p>Mellum2 ist ein neuer Open-Source-Sprachmodell von JetBrains, der sich durch eine innovative Mixture-of-Experts-Architektur auszeichnet. Mit insgesamt 12 Milliarden Parametern aktiviert das Modell pro Token nur 2,5 Milliarden Parameter, was eine aussergewoehnlich effiziente Inferenz ermoeglicht. Diese Architektur macht Mellum2 besonders geeignet fuer Latenz-sensitive Anwendungen wie Routing, RAG-Pipelines, Zusammenfassungen und Sub-Agenten in KI-Systemen.&lt;/p>
&lt;p>Anders als multimodale Modelle konzentriert sich Mellum2 bewusst auf Text- und Code-Aufgaben, was es kompakt und effizient fuer Software-Engineering-Workloads macht. In Benchmarks zeigt das Modell wettbewerbsfaehige Leistung bei Code-Generierung, Reasoning, Wissenschaft und Mathematik – jedoch mit mehr als doppelter Inferenz-Geschwindigkeit im Vergleich zu aehnlich grossen Modellen.&lt;/p></description></item><item><title>PyTorch Profiler verstehen: Der erste Schritt zur Optimierung</title><link>https://chaosnode.de/models/pytorch-profiler-grundlagen-2026-06-01/</link><pubDate>Mon, 01 Jun 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/pytorch-profiler-grundlagen-2026-06-01/</guid><description>&lt;p>Wer KI-Modelle optimieren will, muss sie zuerst verstehen lernen. HuggingFace veröffentlichte eine mehrteilige Serie über PyTorch Profiling und beginnt mit den Grundlagen.&lt;/p>
&lt;h2 id="kurzbeschreibung">Kurzbeschreibung&lt;/h2>
&lt;p>Der erste Teil der Serie führt durch torch.profiler und zeigt, wie man Performance-Engpässe in PyTorch-Modellen identifiziert.&lt;/p>
&lt;h2 id="abstract">Abstract&lt;/h2>
&lt;p>Performance-Optimierung ohne Profiling ist wie im Dunkeln suchen. HuggingFace startet deshalb eine Serie, die das häufig vernachlässigte Thema Profiling systematisch aufrollt. Der erste Teil beginnt dabei nicht mit komplexen LLMs, sondern mit der einfachsten Operation: einer Matrix-Multiplikation gefolgt von einem Bias-Add.&lt;/p></description></item><item><title>Reachy Mini: Open-Source-Robotik goes lokal</title><link>https://chaosnode.de/models/reachy-mini-lokal-2026-06-01/</link><pubDate>Mon, 01 Jun 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/reachy-mini-lokal-2026-06-01/</guid><description>&lt;p>Open-Source-Robotik erreicht einen neuen Meilenstein: Reachy Mini kann vollständig lokal betrieben werden.&lt;/p>
&lt;h2 id="kurzbeschreibung">Kurzbeschreibung&lt;/h2>
&lt;p>HuggingFace zeigt, wie Reachy Mini ohne Cloud-Abhängigkeit für Konversationen eingesetzt werden kann – komplett lokal mit Open-Source-Komponenten.&lt;/p>
&lt;h2 id="abstract">Abstract&lt;/h2>
&lt;p>Reachy Mini ist ein Open-Source-Roboter, der für Bildungs- und Forschungszwecke entwickelt wurde. Die neuste Entwicklungsstufe macht den Roboter vollständig unabhängig von Cloud-Diensten. Alle Konversationen können lokal durchgeführt werden, ohne dass Daten an externe Server gesendet werden müssen.&lt;/p>
&lt;p>Die lokale Implementation nutzt eine Kombination aus Open-Source-Komponenten: ein lokales Speech-to-Text-Modell, ein Large Language Model für die Konversationslogik und ein Text-to-Speech-System für die Audio-Ausgabe. Der gesamte Stack läuft auf Hardware, die im Roboter oder auf einem lokalen Server installiert ist.&lt;/p></description></item><item><title>Harness, Scaffold und Agents – Eine Begriffsklaerung</title><link>https://chaosnode.de/models/harness-scaffold-agent-terminologie-2026-05-31/</link><pubDate>Sun, 31 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/harness-scaffold-agent-terminologie-2026-05-31/</guid><description>&lt;h2 id="kurzfassung">Kurzfassung&lt;/h2>
&lt;p>In der schnelllebigen Welt der KI-Agenten verschwimmen die Begriffe. Hugging Face liefert ein praxisorientiertes Glossar fuer Harness, Scaffold, Context Engineering und mehr.&lt;/p>
&lt;h2 id="abstract">Abstract&lt;/h2>
&lt;p>Nach der ICLR 2026 fiel auf: Selbst Experten sind sich uneinig ueber grundlegende Begriffe. &amp;ldquo;Was meinst du mit Harness und Scaffold im Kontext von Agenten?&amp;rdquo; Die Antworten waren widersprüchlich.&lt;/p>
&lt;p>Dieser Artikel klaert die Terminologie. Das Kernkonzept ist einfach: &lt;strong>Model + Harness = Agent&lt;/strong>. Das Model (Claude, GPT, Qwen) produziert Text. Das Harness ist alles drumherum – die Ausfuehrungsschleife, die Tool-Calls verarbeitet und entscheidet, wann der Agent stoppt.&lt;/p></description></item><item><title>NVIDIA Nemotron Diffusion – Token-Parallel statt Autoregressiv</title><link>https://chaosnode.de/models/nemotron-diffusion-llm-speed-of-light-2026-05-31/</link><pubDate>Sun, 31 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/nemotron-diffusion-llm-speed-of-light-2026-05-31/</guid><description>&lt;h2 id="kurzfassung">Kurzfassung&lt;/h2>
&lt;p>Autoregressive Modelle generieren Token fuer Token – ein Flaschenhals. NVIDIAs Nemotron-Labs Diffusion bricht dieses Muster und generiert mehrere Token parallel mit iterativer Verfeinerung.&lt;/p>
&lt;h2 id="abstract">Abstract&lt;/h2>
&lt;p>Grosse Sprachmodelle sind autoregressiv: Jeder Token haengt von den vorherigen ab. Das funktioniert gut, hat aber einen fundamentalen Nachteil – vollstaendige Modelldurchlaeufe fuer jeden einzelnen Token. Speicherbandbreite, nicht Rechenleistung, ist der Flaschenhals.&lt;/p>
&lt;p>&lt;strong>Nemotron-Labs Diffusion&lt;/strong> geht einen anderen Weg. Die Modelle (3B, 8B, 14B) generieren mehrere Token gleichzeitig und verfeinern sie iterativ. Das hat drei Vorteile:&lt;/p></description></item><item><title>Rotary GPU: Lokale Ausfuehrung grosser MoE-Modelle</title><link>https://chaosnode.de/models/rotary-gpu/</link><pubDate>Sun, 31 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/rotary-gpu/</guid><description>&lt;p>Rotary GPU ist ein innovativer Ansatz zur lokalen Ausführung großer Mixture-of-Experts (MoE) Modelle unter begrenzten GPU-Ressourcen. Die Forschung stellt nicht die Skalierung von Sprachmodellen in Frage, sondern widmet sich einer praktischen Herausforderung: Wie können existierende große Modelle für Nutzer zugänglich werden, die keine Rechenzentrums-Infrastruktur besitzen?&lt;/p>
&lt;p>Das Paper präsentiert Rotary GPU, einen explorativen Ausführungsansatz, der auf einem rotierenden Beschleuniger-Residenz-Konzept basiert. Zur Validierung wurde ein Qwen3.6-35B-A3B MoE-Modell auf einem Consumer-Laptop mit einer RTX 4060 Laptop GPU (8 GB VRAM) ausgeführt. Unter der primären Konfiguration generierte das System 2048 Output-Token bei lediglich 6,3 GB VRAM-Nutzung und erreichte eine Decode-Throughput-Rate von 21,06 Token pro Sekunde.&lt;/p></description></item><item><title>Gemini 3.5 Flash: Googles neue Frontier für Agenten und Coding</title><link>https://chaosnode.de/models/gemini-35-flash-frontier-intelligence-2026-05-30/</link><pubDate>Sat, 30 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/gemini-35-flash-frontier-intelligence-2026-05-30/</guid><description>&lt;h2 id="die-agentische-gemini-ära-beginnt">Die agentische Gemini-Ära beginnt&lt;/h2>
&lt;p>Auf der Google I/O 2026 kündigte Sundar Pichai die &lt;strong>Gemini 3.5&lt;/strong>-Modellfamilie an. Der Start erfolgt mit &lt;strong>Gemini 3.5 Flash&lt;/strong> – einem Modell, das speziell für agentic Workflows und komplexe Langzeit-Aufgaben optimiert ist.&lt;/p>
&lt;h3 id="im-zentrum-token-im-maßstab">Im Zentrum: Token im Maßstab&lt;/h3>
&lt;p>Die Zahlen sprechen für sich:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>3,2+ Quadrillionen Token pro Monat&lt;/strong> – ein 7x-Wachstum gegenüber dem Vorjahr&lt;/li>
&lt;li>&lt;strong>8,5 Millionen Entwickler&lt;/strong> bauen monatlich mit Googles Modellen&lt;/li>
&lt;li>&lt;strong>19 Milliarden Token pro Minute&lt;/strong> werden über die APIs verarbeitet&lt;/li>
&lt;/ul>
&lt;h3 id="was-bietet-gemini-35-flash">Was bietet Gemini 3.5 Flash?&lt;/h3>
&lt;p>Laut Google ist 3.5 Flash:&lt;/p></description></item><item><title>Nemotron-Labs Diffusion Sprachmodelle für schnelle Textgeneration</title><link>https://chaosnode.de/models/models-nemotron-diffusion-language-2026-05-30/</link><pubDate>Sat, 30 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-nemotron-diffusion-language-2026-05-30/</guid><description>&lt;p>Traditionelle Large Language Models generieren Text autoregressiv. Nvidias Nemotron-Labs zeigt einen radikal anderen Ansatz: Diffusionsmodelle für Text.&lt;/p>
&lt;h2 id="was-sind-diffusion-language-models">Was sind Diffusion Language Models?&lt;/h2>
&lt;p>Diffusionsmodelle wurden ursprünglich für Bildgenerierung entwickelt. Nemotron überträgt dieses Konzept auf Text:&lt;/p>
&lt;ul>
&lt;li>Iteratives Verfeinern statt Token-für-Token&lt;/li>
&lt;li>Parallel Processing aller Tokens&lt;/li>
&lt;li>Kontrollierbare Balance zwischen Qualität und Geschwindigkeit&lt;/li>
&lt;/ul>
&lt;h2 id="geschwindigkeits-vorteile">Geschwindigkeits-Vorteile&lt;/h2>
&lt;p>Der Ansatz ermöglicht massive Parallelisierung. Alle Tokens werden gleichzeitig verfeinert. Dadurch skaliert die Generierung besser mit GPU-Parallelität.&lt;/p>
&lt;p>Benchmarks zeigen: Nemotron erreicht 500-2000 Tokens pro Sekunde bei vergleichbarer Qualität zu autoregressiven Modellen (50-200 T/s).&lt;/p></description></item><item><title>TRL Hub Bucket - Billionen Parameter effizient synchronisieren</title><link>https://chaosnode.de/models/models-trl-billion-parameters-sync-2026-05-30/</link><pubDate>Sat, 30 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-trl-billion-parameters-sync-2026-05-30/</guid><description>&lt;p>Das Training von Modellen mit einer Billion Parametern stellt infrastrukturelle Herausforderungen. TRL und Hugging Face zeigen eine elegante Loesung.&lt;/p>
&lt;h2 id="das-problem-mit-riesigen-checkpoints">Das Problem mit riesigen Checkpoints&lt;/h2>
&lt;p>Ein Standard-Checkpoint eines Billion-Parameter-Modells benoetigt 4 TB Speicher. Bei Multi-Node-Training wird dies unpraktikabel.&lt;/p>
&lt;h2 id="die-loesung-delta-gewicht-synchronisation">Die Loesung: Delta-Gewicht-Synchronisation&lt;/h2>
&lt;p>Statt komplette Checkpoints zu uebertragen, synchronisiert TRL nur die Deltas. Die meisten Gewicht-Aenderungen pro Trainingsschritt sind minimal.&lt;/p>
&lt;h3 id="hub-bucket-die-cloud-integration">Hub Bucket: Die Cloud-Integration&lt;/h3>
&lt;p>Das neue Hub Bucket Feature auf Hugging Face bietet:&lt;/p></description></item><item><title>Granite 4.1: IBMs Antwort auf effiziente LLMs</title><link>https://chaosnode.de/models/ibm-granite-41-dense-llm-training/</link><pubDate>Fri, 29 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/ibm-granite-41-dense-llm-training/</guid><description>&lt;p>IBM hat mit Granite 4.1 eine Familie von Sprachmodellen veröffentlicht, die beweist, dass Qualität nicht zwingend massive Parameterzahlen erfordert. Die Modelle kommen in drei Größen: 3B, 8B und 30B Parameter, alle als reine Dense-Architekturen ohne Mixture-of-Experts. Die 8B-Instruct-Variante erreicht oder übertrifft dabei die Leistung des deutlich größeren Granite 4.0-H-Small (32B), was die Effizienz der neuen Architektur unterstreicht.&lt;/p>
&lt;p>Training-Technisch setzt IBM auf einen mehrstufigen Pre-Training-Prozess über fünf Phasen mit insgesamt 15 Billionen Token. Die Datenqualität steht über der Quantität – jedes Tokensegment wird kuratiert. Grouped Query Attention (GQA) reduziert den Speicherbedarf bei Inferenz, während RoPE-Positionsembeddings ein Kontextfenster von bis zu 512.000 Token ermöglichen. SwiGLU-Aktivierungen und RMSNorm vervollständigen die moderne Architektur.&lt;/p></description></item><item><title>KI-Agenten-Wörterbuch: Die Begriffe, die zählen</title><link>https://chaosnode.de/models/ki-agent-glossar-begriffe-kennenlernen/</link><pubDate>Fri, 29 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/ki-agent-glossar-begriffe-kennenlernen/</guid><description>&lt;p>Die Welt der KI-Agenten entwickelt sich schneller als ihr gemeinsames Vokabular. Begriffe verschwimmen, werden in verschiedenen Kontexten unterschiedlich verwendet oder verschwinden nach wenigen Monaten stillschweigend. Hugging Face hat diesen Missstand mit einem umfassenden Glossar angegangen, das die wichtigsten Konzepte klar definiert – nicht als endgültige Wahrheit, sondern als praktisches mentales Modell für produktive Diskussionen.&lt;/p>
&lt;p>Der &amp;ldquo;Model&amp;rdquo;-Begriff ist der Fundamentale: ein vortrainiertes neuronales Netz wie Llama oder GPT, das Token in Token transformiert. &amp;ldquo;Scaffolding&amp;rdquo; bezeichnet die äußere Struktur, die ein Basis-Modell mit Werkzeugen und Kontext versieht – über system prompts, Dokumentation und API-Integrationen. Der &amp;ldquo;Harness&amp;rdquo; ist die technische Implementierung, die das Gerüst zum Laufen bringt: Zustandsmanagement, Tool-Ausführung und Validierung. Ein &amp;ldquo;Agent&amp;rdquo; entsteht, wenn alle Komponenten zusammenkommen und autonom agiert.&lt;/p></description></item><item><title>PyTorch Profiler verstehen: Performance-Engpässe beim Machine-Learning-Training aufdecken</title><link>https://chaosnode.de/models/pytorch-profiler-2026-05-29/</link><pubDate>Fri, 29 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/pytorch-profiler-2026-05-29/</guid><description>&lt;h2 id="kurzbeschreibung">Kurzbeschreibung&lt;/h2>
&lt;p>Was Sie nicht profilieren können, können Sie nicht optimieren. Dieser Artikel führt in die Grundlagen von &lt;code>torch.profiler&lt;/code> ein und zeigt, wie Entwickler Engpässe im Training systematisch aufdecken können.&lt;/p>
&lt;h2 id="einleitung">Einleitung&lt;/h2>
&lt;p>Ob Sie mehr Token pro Sekunde aus einem Large Language Model herausholen, Millisekunden bei der Inferenz sparen oder verstehen wollen, warum Ihr Training langsamer läuft als erwartet – der Weg führt zwangsläufig über Profiling. Die Herausforderung: Profiling hat eine steile Lernkurve. Profiler-Traces sind dichte Wände aus farbigen Rechtecken, die Events tragen einschüchternde Namen, und die meisten Tutorials setzen voraus, dass man sie bereits lesen kann.&lt;/p></description></item><item><title>Ettin Reranker: State-of-the-Art Reranking</title><link>https://chaosnode.de/models/ettin-reranker-state-of-the-art-reranking-2026-05-28/</link><pubDate>Thu, 28 May 2026 08:00:00 +0200</pubDate><guid>https://chaosnode.de/models/ettin-reranker-state-of-the-art-reranking-2026-05-28/</guid><description>&lt;p>Tom Aarsen hat auf dem Hugging Face Blog die Ettin Reranker-Familie vorgestellt – sechs neue Cross-Encoder-Reranker, die State-of-the-Art-Performance bei ihren jeweiligen Modellgrößen liefern. Die Modelle basieren auf den Ettin ModernBERT-Encodern und werden gemeinsam mit den Trainingsdaten und dem vollständigen Trainings-Rezept veröffentlicht.&lt;/p>
&lt;h2 id="verfügbare-modelle">Verfügbare Modelle&lt;/h2>
&lt;p>Die Familie umfasst sechs Varianten:&lt;/p>
&lt;ul>
&lt;li>cross-encoder/ettin-reranker-17m-v1&lt;/li>
&lt;li>cross-encoder/ettin-reranker-32m-v1&lt;/li>
&lt;li>cross-encoder/ettin-reranker-68m-v1&lt;/li>
&lt;li>cross-encoder/ettin-reranker-150m-v1&lt;/li>
&lt;li>cross-encoder/ettin-reranker-400m-v1&lt;/li>
&lt;li>cross-encoder/ettin-reranker-1b-v1&lt;/li>
&lt;/ul>
&lt;p>Die Modelle wurden mit einem Distillations-Rezept trainiert: Pointwise MSE auf mixedbread-ai/mxbai-rerank-large-v2-Scores über einem Subset der lightonai-Embedding-Datasets.&lt;/p></description></item><item><title>Gemini 3.5: Googles Antwort auf Coding-Agenten</title><link>https://chaosnode.de/models/gemini-35-googles-antwort-auf-coding-agenten-2026-05-28/</link><pubDate>Thu, 28 May 2026 08:00:00 +0200</pubDate><guid>https://chaosnode.de/models/gemini-35-googles-antwort-auf-coding-agenten-2026-05-28/</guid><description>&lt;p>Google hat auf der I/O 2026 die neue Gemini-3.5-Modellfamilie vorgestellt. Der Fokus liegt diesmal nicht auf roher Intelligenz, sondern auf Action – also der Fähigkeit, komplexe Workflows autonom auszuführen. Der erste Release ist Gemini 3.5 Flash, sofort verfügbar für Milliarden von Nutzern weltweit über die Gemini-App und den KI-Modus in der Google-Suche.&lt;/p>
&lt;h2 id="frontier-performance-für-agenten">Frontier-Performance für Agenten&lt;/h2>
&lt;p>Gemini 3.5 Flash liefert Frontier-Performance speziell für Agenten und Coding. Die Stärke liegt bei komplexen Aufgaben mit langem Zeithorizont – genau das, was Coding-Agenten benötigen. Entwickler können das Modell über die Google-Antigravity-Plattform, die Gemini API in Google AI Studio und Android Studio nutzen. Enterprise-Kunden erhalten Zugriff über die Gemini Enterprise Agent Platform.&lt;/p></description></item><item><title>KI-Agenten verstehen: Ein Glossar der wichtigsten Begriffe</title><link>https://chaosnode.de/models/ki-agenten-glossar-2026-05-28/</link><pubDate>Thu, 28 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/ki-agenten-glossar-2026-05-28/</guid><description>&lt;p>Die Sprache rund um KI-Agenten entwickelt sich rasant, oft schneller als das gemeinsame Verständnis der Begriffe. HuggingFace hat nun ein Glossar veröffentlicht, das Licht ins Dunkel bringt und die wichtigsten Konzepte präzise erklärt.&lt;/p>
&lt;p>Im Zentrum steht die Gleichung &lt;strong>Agent = Model + Harness&lt;/strong>. Das &lt;strong>Model&lt;/strong> ist das Sprachmodell selbst – es nimmt Text entgegen und gibt Text aus, hat aber kein Gedächtnis zwischen Aufrufen. Das &lt;strong>Harness&lt;/strong> ist die Ausführungsschicht: Es ruft das Model auf, verarbeitet Tool-Aufrufe und entscheidet, wann der Agent stoppt. Das &lt;strong>Scaffolding&lt;/strong> definiert das Verhalten – System-Prompts, Tool-Beschreibungen und wie Responses interpretiert werden.&lt;/p></description></item><item><title>Ollama: Von lokal zu Cloud – nahtlose LLM-Integration</title><link>https://chaosnode.de/models/ollama-cloud-provider-2026-05-27/</link><pubDate>Wed, 27 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/ollama-cloud-provider-2026-05-27/</guid><description>&lt;p>Ollama hat sich als de-facto-Standard für lokale LLM-Entwicklung etabliert. Mit einem Befehl wie \ startet ein lokaler LLM-Server, perfekt für Entwicklung und Experimente. Jetzt schließt Ollama die Lücke zur Cloud.&lt;/p>
&lt;h2 id="das-problem-mit-lokal">Das Problem mit lokal&lt;/h2>
&lt;p>Lokale LLMs sind toll für:&lt;/p>
&lt;ul>
&lt;li>Entwicklung und Testing ohne API-Kosten&lt;/li>
&lt;li>Privacy und Datenkontrolle&lt;/li>
&lt;li>Keine Latency durch Network-Calls&lt;/li>
&lt;li>Offline-Arbeit&lt;/li>
&lt;/ul>
&lt;p>Aber für Produktion brauchst du:&lt;/p>
&lt;ul>
&lt;li>Skalierbarkeit&lt;/li>
&lt;li>GPU-Power jenseits der lokalen Hardware&lt;/li>
&lt;li>Zuverlässige Verfügbarkeit&lt;/li>
&lt;li>Einfache Deployment-Pfade&lt;/li>
&lt;/ul>
&lt;p>Der Übergang von lokal zu Produktion war bisher holprig. Andere API-Endpunkte, andere Authentifizierung, anderes Pricing.&lt;/p></description></item><item><title>Trillion-Parameter-Training: Delta Weight Sync in TRL</title><link>https://chaosnode.de/models/delta-weight-sync-trillion-parameter-training-2026-05-27/</link><pubDate>Wed, 27 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/delta-weight-sync-trillion-parameter-training-2026-05-27/</guid><description>&lt;p>Asynchrones Reinforcement Learning hat ein skaliertes Problem: Jeder Trainingsschritt erfordert den Transfer des kompletten Modells an den Inference-Server. Bei 7B Parametern sind das 14 GB. Bei Frontier-Modellen mit 1 Billion Parametern: ein Terabyte pro Schritt.&lt;/p>
&lt;p>Hugging Face hat eine Lösung implementiert, die dieses Problem eliminiert.&lt;/p>
&lt;h2 id="das-problem">Das Problem&lt;/h2>
&lt;p>Bei Async-RL läuft der Trainer auf einem Cluster, der Inference-Server auf einem anderen. Nach jedem Optimizer-Schritt muss das aktualisierte Modell zum Inference-Server – sonst generiert dieser mit veralteten Gewichten. Der Overhead ist brutal.&lt;/p></description></item><item><title>Agent-Glossar - Die Begriffe hinter Harness und Scaffold</title><link>https://chaosnode.de/models/models-agent-glossary-harness-scaffold-2026-05-26/</link><pubDate>Tue, 26 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-agent-glossary-harness-scaffold-2026-05-26/</guid><description>&lt;p>Wenn sich ein Feld schnell entwickelt, hält das Vokabular oft mit dem gemeinsamen Verständnis nicht Schritt. Ein neuer Blogpost von HuggingFace versucht, Licht in die Begriffswelt der KI-Agenten zu bringen - insbesondere Harness, Scaffold und verwandte Konzepte.&lt;/p>
&lt;h2 id="warum-dieses-glossar-wichtig-ist">Warum dieses Glossar wichtig ist&lt;/h2>
&lt;p>Nach ICLR 2026 wurde eine Frage im Raum: Was bedeutet eigentlich harness und scaffold im Kontext von Agenten? Die Antworten blieben vage und widersprüchlich. Dieses Glossar ist der Versuch, die Begriffe zu klären, die ständig auftauchen, aber nie einheitlich erklärt werden.&lt;/p></description></item><item><title>DeepSeek-V4 mit Millionen-Token-Kontext für Agenten</title><link>https://chaosnode.de/models/deepseek-v4-million-token-kontext-2026-05-26/</link><pubDate>Tue, 26 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/deepseek-v4-million-token-kontext-2026-05-26/</guid><description>&lt;p>DeepSeek hat mit V4 ein Model veröffentlicht, das einen Millionen-Token-Kontext nicht nur verspricht, sondern tatsächlich nutzbar macht. Die Architektur ist speziell für langlaufende Agenten-Workloads optimiert - ein Problem, das bisher alle Frontier-Modelle zum Stillstand bringt.&lt;/p>
&lt;h2 id="die-modelle">Die Modelle&lt;/h2>
&lt;p>Zwei MoE-Varianten stehen auf HuggingFace bereit:&lt;/p>
&lt;ul>
&lt;li>DeepSeek-V4-Pro: 1,6T Gesamtparameter, 49B aktiv pro Token&lt;/li>
&lt;li>DeepSeek-V4-Flash: 284B Gesamtparameter, 13B aktiv pro Token&lt;/li>
&lt;/ul>
&lt;p>Beide bieten ein 1M-Token-Kontextfenster. Die Benchmark-Ergebnisse sind konkurrenzfähig, aber nicht State-of-the-Art. Das ist jedoch nicht der Punkt.&lt;/p></description></item><item><title>EAGLE 3.1 - Robusteres Speculative Decoding für vLLM</title><link>https://chaosnode.de/models/models-eagle-31-speculative-decoding-2026-05-26/</link><pubDate>Tue, 26 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-eagle-31-speculative-decoding-2026-05-26/</guid><description>&lt;p>Ein gemeinsames Release der EAGLE-, vLLM- und TorchSpec-Teams bringt EAGLE 3.1 als bedeutendes Update für speculative Decoding-Algorithmen. Die neue Version adressiert ein Kernproblem: Instabilität bei wechselnden Chat-Templates und langen Kontexten.&lt;/p>
&lt;h2 id="was-ist-speculative-decoding">Was ist Speculative Decoding?&lt;/h2>
&lt;p>Speculative Decoding nutzt ein kleineres Draft-Modell, das mehrere Tokens gleichzeitig vorhersagt. Das Hauptmodell verifiziert diese Vorhersagen in einem einzigen Forward-Pass. Akzeptierte Tokens werden behalten, bei Ablehnung wird ab dem Fehlerpunkt neu generiert. Das Ergebnis: Bis zu 2x höhere Throughput ohne Qualitätsverlust.&lt;/p></description></item><item><title>Klartext für KI-Entwickler: Harness, Scaffold und die Begriffe, die man kennen muss</title><link>https://chaosnode.de/models/models-agent-glossary-2026-05-25/</link><pubDate>Mon, 25 May 2026 06:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-agent-glossary-2026-05-25/</guid><description>&lt;h2 id="warum-dieser-glossar-wichtig-ist">Warum dieser Glossar wichtig ist&lt;/h2>
&lt;p>In der schnelllebigen Welt der KI-Agenten vermischen sich Begriffe, werden unterschiedlich verwendet oder verschwinden nach wenigen Monaten stillschweigend. Nach ICLR 2026 postete ein Entwickler eine Frage, die die Verwirrung perfekt einfängt: &amp;ldquo;Was meint ihr eigentlich mit &amp;lsquo;harness&amp;rsquo; und &amp;lsquo;scaffold&amp;rsquo; im Kontext von Agenten? Ich habe auf ICLR viele Erklärungen gehört, aber keine hat auf dieselbe Antwort hingeführt.&amp;rdquo; Dieser Glossar von HuggingFace ist der Versuch, Ordnung in dieses Chaos zu bringen – ohne Anspruch auf Vollständigkeit, aber mit praktischen Mental Models für Diskussionen.&lt;/p></description></item><item><title>Google I/O 2026: Gemini 3.5 und die agentische Ära</title><link>https://chaosnode.de/models/models-gemini-news-roundup-2026-05-25/</link><pubDate>Mon, 25 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-gemini-news-roundup-2026-05-25/</guid><description>&lt;p>&lt;strong>Googles I/O 2026 brachte eine Flut an Ankündigungen: Gemini 3.5 mit agentischen Fähigkeiten, Gemini Omni, und ein neues AI Ultra Abonnement für 100 Dollar monatlich.&lt;/strong>&lt;/p>
&lt;p>Sundar Pichai präsentiert auf der I/O 2026 den Übergang in die &amp;ldquo;agentische Gemini-Ära&amp;rdquo;. Das bedeutet: Modelle, die nicht nur generieren, sondern handeln. Gemini 3.5 ist die neueste Modellfamilie, die Frontier-Intelligenz mit Aktionsfähigkeit kombiniert.&lt;/p>
&lt;h2 id="gemini-35-frontier-intelligence-mit-action">Gemini 3.5: Frontier Intelligence mit Action&lt;/h2>
&lt;p>Die neuen Modelle sind darauf ausgelegt, nicht nur Text zu generieren, sondern komplexe Aufgaben über mehrere Schritte hinweg auszuführen. Das heißt: Tool-Use, Function Calling, und die Integration mit externen Systemen sind First-Class Citizens. Die Modellfamilie umfasst verschiedene Größen für unterschiedliche Use Cases.&lt;/p></description></item><item><title>DeepSeek V4-Pro: 75% Rabatt wird permanent</title><link>https://chaosnode.de/models/deepseek-v4-pro-permanent-discount-2026-05-24/</link><pubDate>Sun, 24 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/deepseek-v4-pro-permanent-discount-2026-05-24/</guid><description>&lt;p>DeepSeek hat angekündigt, den 75% Rabatt auf sein Flaggschiff-Modell V4-Pro dauerhaft beizubehalten. Entwickler zahlen damit nur noch ein Viertel des ursprünglichen Preises - eine Entscheidung, die den Preisdruck im KI-Markt verschärft.&lt;/p>
&lt;p>Die ursprüngliche Rabattaktion sollte Ende Mai auslaufen. In einer Erklärung auf der eigenen Website bestätigte DeepSeek jedoch, dass die vergünstigten Preise für Developer permanent bleiben. Dies signalisiert einen fundamentalen Wandel in der Preisstruktur für frontier KI-Modelle.&lt;/p>
&lt;p>Die Implikationen für den Markt sind erheblich. Chinesische KI-Firmen konkurrieren zunehmend direkt mit globalen Anbietern wie OpenAI, Anthropic und Google. Die aggressive Preisstrategie von DeepSeek zwingt Wettbewerber, ihre eigene Preisgestaltung zu überdenken.&lt;/p></description></item><item><title>Gemini 3.5 Flash: Googles Antwort auf agentische KI-Workflows</title><link>https://chaosnode.de/models/gemini-35-flash-frontier-agenten-2026-05-24/</link><pubDate>Sun, 24 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/gemini-35-flash-frontier-agenten-2026-05-24/</guid><description>&lt;p>Google DeepMind hat mit Gemini 3.5 eine neue Modellfamilie vorgestellt, die speziell für komplexe agentische Workflows entwickelt wurde. Der Fokus liegt nicht mehr allein auf reiner Intelligenz, sondern auf der Fähigkeit, Aufgaben autonom auszuführen.&lt;/p>
&lt;h2 id="agenten-statt-assistenten">Agenten statt Assistenten&lt;/h2>
&lt;p>Gemini 3.5 Flash, die erste Variante der neuen Serie, ist ab sofort weltweit verfügbar. Das Modell zielt auf die Lücke zwischen traditionellen Chat-Interfaces und vollautomatisierten Agenten. Entwickler können Aufgaben starten und das System erledigt independently die Arbeit – von der Planung über die Recherche bis zur Umsetzung.&lt;/p></description></item><item><title>Nemotron-Labs Diffusion: Textgenerierung mit Lichtgeschwindigkeit</title><link>https://chaosnode.de/models/nemotron-labs-diffusion-llm-2026-05-24/</link><pubDate>Sun, 24 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/nemotron-labs-diffusion-llm-2026-05-24/</guid><description>&lt;p>NVIDIA präsentiert mit Nemotron-Labs Diffusion einen fundamental neuen Ansatz zur Textgenerierung. Statt Token für Token sequenziell zu erzeugen - wie bei herkömmlichen autoregressiven Modellen - generiert dieses Diffusion Language Model mehrere Token parallel und verfeinert sie iterativ.&lt;/p>
&lt;p>Das Problem mit autoregressiven Modellen: Jeder neue Token erfordert einen kompletten Modell-Durchlauf, wobei alle Gewichte aus dem Speicher geladen werden müssen. Die meiste Rechenzeit verbringen moderne GPUs nicht mit eigentlicher Berechnung, sondern mit Speicheroperationen. Diese Ineffizienz wird durch die Token-abhängige Generierung noch verstärkt.&lt;/p></description></item><item><title>3B-Modell schlägt alle Frontier-APIs: Spezialisierung über Skalierung</title><link>https://chaosnode.de/models/dharma-specialization-beats-scale-2026-05-23/</link><pubDate>Sat, 23 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/dharma-specialization-beats-scale-2026-05-23/</guid><description>&lt;h2 id="ein-3-milliarden-parameter-modell-übertrifft-jede-frontier-api">Ein 3-Milliarden-Parameter-Modell übertrifft jede Frontier-API&lt;/h2>
&lt;p>Für drei Jahre war die Enterprise-KI-Strategie stabil gewachsen: Die sicherste Wahl war meist das größte verfügbare Frontier-Modell. Kleinere Modelle wurden nur dort eingesetzt, wo Workloads Qualitätseinbußen gegen niedrigere Kosten akzeptierten. Diese Logik war nachvollziehbar: Fähigkeiten skalierten mit Parameteranzahl, Frontier-Provider führten die Benchmarks an, und die Kosten der falschen Entscheidung erschienen größer als der Preis für das beste Modell.&lt;/p>
&lt;p>Dharma-AI veröffentlichte im April DharmaOCR – spezialisierte Sprachmodelle für strukturierte OCR. Die begleitende Forschung demonstriert nun einen Befund, der die herkömmliche Annahme in Frage stellt: Ein 3-Milliarden-Parameter-Modell, spezialisiert durch eine Fine-Tuning-Pipeline, übertraf jede getestete kommerzielle Frontier-API. Nicht knapp. Und nicht auf einer Metrik, die Käucher ignorieren würden.&lt;/p></description></item><item><title>Google I/O 2026 - Gemini 3.5 Flash und Omni</title><link>https://chaosnode.de/models/google-gemini-35-flash-omni-2026-05-23/</link><pubDate>Sat, 23 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/google-gemini-35-flash-omni-2026-05-23/</guid><description>&lt;h2 id="google-io-2026-gemini-35-flash-und-die-omni-aera">Google I/O 2026: Gemini 3.5 Flash und die Omni-Aera&lt;/h2>
&lt;p>Die Google I/O 2026 stand ganz im Zeichen agentischer KI-Entwicklung. Mit Gemini 3.5 Flash und dem bahnbrechenden Gemini Omni präsentierte Google zwei Modelle, die die Landschaft der generativen KI nachhaltig verändern dürften.&lt;/p>
&lt;p>Gemini 3.5 Flash ist ab sofort allgemein verfügbar und kombiniert Front-End-Intelligenz mit Geschwindigkeit. Was besonders auffällt: Das Modell übertrifft Gemini 3.1 Pro in anspruchsvollen Coding- und Agentik-Benchmarks wie Terminal-Bench 2.1 (76.2%), GDPval-AA (1656 Elo) und MCP Atlas (83.6%). Das bedeutet: Frontier-Level-Intelligenz ohne die typischen Latenz-Einbussen.&lt;/p></description></item><item><title>NVIDIA Nemotron-Labs Diffusion: Textgenerierung mit Lichtgeschwindigkeit</title><link>https://chaosnode.de/models/nemotron-labs-diffusion-dlm-2026-05-23/</link><pubDate>Sat, 23 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/nemotron-labs-diffusion-dlm-2026-05-23/</guid><description>&lt;h2 id="diffusion-language-models-ein-neues-paradigma-für-textgenerierung">Diffusion Language Models: Ein neues Paradigma für Textgenerierung&lt;/h2>
&lt;p>Große Sprachmodelle waren seit Jahren autoregressiv – sie generieren Token für Token, wobei jeder neue Token von den vorhergehenden abhängt. Das ist stabil beim Training und einfach zu servieren, aber es schafft einen harten Limit: Jeder neue Token erfordert einen kompletten Model-Pass, und alle Gewichte müssen erst aus dem Speicher geladen werden. Auf modernen GPUs verbringen autoregressive Modelle die meiste Zeit mit Speicheroperationen statt mit Berechnung.&lt;/p></description></item><item><title>Open Agent Leaderboard: Endlich Agenten ganzheitlich vergleichen</title><link>https://chaosnode.de/models/open-agent-leaderboard-benchmark-2026-05-22/</link><pubDate>Fri, 22 May 2026 10:00:00 +0200</pubDate><guid>https://chaosnode.de/models/open-agent-leaderboard-benchmark-2026-05-22/</guid><description>&lt;p>Die meisten KI-Benchmarks fragen: Welches Modell erzielt die höchste Punktzahl? Doch bei Agenten ist das Modell nur ein Teil der Gleichung. Ein neuer Open-Source-Benchmark von IBM Research auf Hugging Face ändert die Perspektive: Er bewertet vollständige Agentensysteme – inklusive Tools, Planung, Gedächtnis und Fehlerbehandlung.&lt;/p>
&lt;p>Das Ergebnis desselben Modells kann drastisch variieren, je nachdem welche Werkzeuge verfügbar sind, wie der Agent plant, was er sich merkt, und wie er mit Fehlern umgeht. Der Open Agent Leaderboard macht diese Variablen sichtbar und misst sowohl Qualität als auch Kosten. So sieht man nicht nur was funktioniert, sondern ob sich der Einsatz tatsächlich lohnt.&lt;/p></description></item><item><title>Spezialisierung schlägt Skalierung</title><link>https://chaosnode.de/models/models-spezialisierung-schlaegt-skalierung-2026-05-22/</link><pubDate>Fri, 22 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-spezialisierung-schlaegt-skalierung-2026-05-22/</guid><description>&lt;h2 id="kurzbeschreibung">Kurzbeschreibung&lt;/h2>
&lt;p>Eine neue Studie von Dharma-AI belegt empirisch: Ein auf 3 Milliarden Parameter spezialisiertes Modell kann Frontier-APIs wie Claude Opus oder GPT-5 in domänenspezifischen Aufgaben übertreffen – bei einem Fünfzigstel der Kosten.&lt;/p>
&lt;h2 id="abstract">Abstract&lt;/h2>
&lt;p>Die vorherrschende procurement-Logik in Unternehmen lautete lange: Das größte verfügbare Modell ist die sicherste Wahl. Eine aktuelle Veröffentlichung von Dharma-AI stellt diese Annahme auf den Kopf. Im Rahmen der DharmaOCR-Forschung wurde ein 3-Milliarden-Parameter-Modell durch domänenspezifisches Fine-Tuning so weit spezialisiert, dass es alle getesteten kommerziellen Frontier-APIs übertraf.&lt;/p></description></item><item><title>Ettin Reranker: State-of-the-Art für Semantic Search</title><link>https://chaosnode.de/models/models-ettin-reranker-state-of-art-2026-05-21/</link><pubDate>Thu, 21 May 2026 06:00:00 +0200</pubDate><guid>https://chaosnode.de/models/models-ettin-reranker-state-of-art-2026-05-21/</guid><description>&lt;h2 id="sechs-neue-reranker-modelle">Sechs neue Reranker-Modelle&lt;/h2>
&lt;p>Tom Aarsen von Hugging Face hat die Ettin Reranker-Familie veröffentlicht – sechs neue CrossEncoder-Reranker, die auf ModernBERT basieren und in ihren jeweiligen Größenklassen State-of-the-Art-Performance erreichen.&lt;/p>
&lt;h2 id="die-modelle">Die Modelle&lt;/h2>
&lt;p>Verfügbar sind sechs Varianten:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>ettin-reranker-17m-v1&lt;/strong> – die kompakte Version&lt;/li>
&lt;li>&lt;strong>ettin-reranker-32m-v1&lt;/strong>&lt;/li>
&lt;li>&lt;strong>ettin-reranker-68m-v1&lt;/strong>&lt;/li>
&lt;li>&lt;strong>ettin-reranker-150m-v1&lt;/strong> – ausgewogene Balance&lt;/li>
&lt;li>&lt;strong>ettin-reranker-400m-v1&lt;/strong>&lt;/li>
&lt;li>&lt;strong>ettin-reranker-1b-v1&lt;/strong> – die leistungsstarke Variante&lt;/li>
&lt;/ul>
&lt;h2 id="training-rezept">Training-Rezept&lt;/h2>
&lt;p>Die Modelle wurden mit einem Distillations-Rezept trainiert: Pointwise MSE auf mxbai-rerank-large-v2 Scores mit einem kuratierten Dataset aus embeddings-pre-training und embeddings-fine-tuning. Das Training ist vollständig reproduzierbar.&lt;/p></description></item><item><title>Qwen3.7-Max: Das neue Agent-Fundament</title><link>https://chaosnode.de/models/models-qwen37-agent-frontier-2026-05-21/</link><pubDate>Thu, 21 May 2026 06:00:00 +0200</pubDate><guid>https://chaosnode.de/models/models-qwen37-agent-frontier-2026-05-21/</guid><description>&lt;h2 id="qwen37-max-vorgestellt">Qwen3.7-Max vorgestellt&lt;/h2>
&lt;p>Alibabas Qwen-Team hat mit Qwen3.7-Max sein neuestes Modell für die Agenten-Ära präsentiert. Das proprietäre Modell wurde speziell für autonome Agenten-Aufgaben konzipiert und zeigt beeindruckende Ergebnisse in Coding- und Agent-Benchmarks.&lt;/p>
&lt;h2 id="die-stärken">Die Stärken&lt;/h2>
&lt;p>Qwen3.7-Max positioniert sich als vielseitiges Agent-Fundament:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Coding Agent&lt;/strong>: Von Frontend-Prototyping bis zu komplexer Multi-File-Entwicklung&lt;/li>
&lt;li>&lt;strong>Office-Assistent&lt;/strong>: Zuverlässige Produktivitäts-Hilfe durch MCP-Integrationen&lt;/li>
&lt;li>&lt;strong>Langzeit-Reasoning&lt;/strong>: 35-stündige autonome Kernel-Optimierung mit über 1000 Tool-Calls demonstriert&lt;/li>
&lt;/ul>
&lt;h2 id="benchmark-ergebnisse">Benchmark-Ergebnisse&lt;/h2>
&lt;p>In den wichtigsten Agent-Benchmarks übertrifft Qwen3.7-Max die Konkurrenz:&lt;/p></description></item><item><title>Ettin Reranker: Sechs neue Modelle für semantische Suche</title><link>https://chaosnode.de/models/models-ettin-reranker-2026-05-20/</link><pubDate>Wed, 20 May 2026 18:00:00 +0200</pubDate><guid>https://chaosnode.de/models/models-ettin-reranker-2026-05-20/</guid><description>&lt;p>Hugging Face veröffentlicht mit der Ettin Reranker-Familie sechs neue Cross-Encoder-Modelle, die State-of-the-Art-Performance in ihren jeweiligen Größenklassen erreichen. Die Modelle basieren auf den modernBERT-Encodern und decken Größen von 17M bis 1B Parameter ab.&lt;/p>
&lt;p>Die sechs Varianten – 17M, 32M, 68M, 150M, 400M und 1B – ermöglichen Entwicklern eine granulare Auswahl zwischen Geschwindigkeit und Genauigkeit. Beim Pairing mit embeddinggemma-300m erreichen die Reranker auf dem MTEB(eng, v2) Retrieval-Benchmark konkurrenzfähige Ergebnisse mit deutlich größeren Modellen der Konkurrenz.&lt;/p></description></item><item><title>Google Gemini 3.5: Frontier-Intelligenz trifft Handlungsfähigkeit</title><link>https://chaosnode.de/models/models-gemini-3-5-2026-05-20/</link><pubDate>Wed, 20 May 2026 18:00:00 +0200</pubDate><guid>https://chaosnode.de/models/models-gemini-3-5-2026-05-20/</guid><description>&lt;p>Auf der Google I/O 2026 wurde Gemini 3.5 vorgestellt – die neueste Modellfamilie, die frontier Intelligenz mit echter Handlungsfähigkeit kombiniert. Der Start der Serie beginnt mit 3.5 Flash, das sofort für Milliarden von Nutzerinnen weltweit verfügbar ist: über die Gemini-App, den AI Mode in Google Search, Google Antigravity für Entwickler sowie Android Studio und Gemini Enterprise für Unternehmen.&lt;/p>
&lt;p>Die Entwicklung von Gemini 3.5 fokussiert sich auf drei Kernbereiche: Performance bei Agent-Aufgaben, Geschwindigkeit und komplexe Long-Horizon-Tasks. Besonders bei Coding-Agent-Szenarien zeigt das Modell laut Google signifikante Verbesserungen gegenüber vorherigen Versionen. Die Fähigkeit zur Ausführung längerer Workflows ohne Zwischenschritte ist ein zentraler Fortschritt.&lt;/p></description></item><item><title>Ettin Reranker: State-of-the-Art Reranking-Modelle von Hugging Face</title><link>https://chaosnode.de/models/ettin-reranker-state-of-art-2026-05-20/</link><pubDate>Wed, 20 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/ettin-reranker-state-of-art-2026-05-20/</guid><description>&lt;p>Tom Aarsen veröffentlicht sechs neue CrossEncoder-Reranker in Sentence Transformers – State-of-the-Art bei ihren jeweiligen Modellgrößen.&lt;/p>
&lt;h2 id="die-ettin-reranker-familie">Die Ettin Reranker Familie&lt;/h2>
&lt;p>Die neuen Modelle basieren auf den Ettin ModernBERT-Encodern und umfassen:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>ettin-reranker-17m-v1&lt;/strong> – Kleinstes Modell für Ressourcen-beschränkte Umgebungen&lt;/li>
&lt;li>&lt;strong>ettin-reranker-32m-v1&lt;/strong> – Kompakt und effizient&lt;/li>
&lt;li>&lt;strong>ettin-reranker-68m-v1&lt;/strong> – Ausgewogene Balance aus Performance und Größe&lt;/li>
&lt;li>&lt;strong>ettin-reranker-150m-v1&lt;/strong> – Mittelgroßes Modell&lt;/li>
&lt;li>&lt;strong>ettin-reranker-400m-v1&lt;/strong> – Für anspruchsvollere Anwendungen&lt;/li>
&lt;li>&lt;strong>ettin-reranker-1b-v1&lt;/strong> – Größtes Modell mit maximaler Leistung&lt;/li>
&lt;/ul>
&lt;h2 id="training-mit-distillation">Training mit Distillation&lt;/h2>
&lt;p>Die Modelle wurden durch Distillation trainiert: Pointwise MSE auf mixedbread-ai/mxbai-rerank-large-v2 Scores über einen neuen Datensatz aus lightonai-Daten. Das Training-Rezept ist vollständig dokumentiert und der Datensatz öffentlich verfügbar.&lt;/p></description></item><item><title>Asynchrones Continuous Batching - CPU und GPU parallel</title><link>https://chaosnode.de/models/models-continuous-batching-async-2026-05-19/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-continuous-batching-async-2026-05-19/</guid><description>&lt;p>Hugging Face erklärt, wie man CPU und GPU Arbeit entkoppelt, um die LLM-Inference massiv zu beschleunigen.&lt;/p>
&lt;h2 id="kurzbeschreibung">Kurzbeschreibung&lt;/h2>
&lt;p>Durch asynchrones Batching werden CPU-Vorbereitung und GPU-Berechnung parallelisiert. Idlezeiten werden eliminiert und der GPU-Durchsatz maximiert.&lt;/p>
&lt;h2 id="abstract">Abstract&lt;/h2>
&lt;p>Continuous Batching ist ein wichtiger Schritt für effiziente LLM-Inference, aber das Standard-Verfahren hat eine Schwachstelle: Es ist synchron. Das bedeutet, CPU und GPU arbeiten abwechselnd. Während die GPU rechnet, wartet die CPU, und während die CPU den nächsten Batch vorbereitet, wartet die GPU. In Loops mit hunderten Schritten pro Sekunde summieren sich diese Pausen zu echtem Performance-Verlust.&lt;/p></description></item><item><title>Ettin Reranker: Neue SOTA-Modelle für Semantische Suche</title><link>https://chaosnode.de/models/ettin-reranker-family-2026-05-19/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/ettin-reranker-family-2026-05-19/</guid><description>&lt;h2 id="sechs-neue-reranker-von-17m-bis-1b-parametern">Sechs neue Reranker von 17M bis 1B Parametern&lt;/h2>
&lt;p>Tom Aarsen hat sechs neue CrossEncoder-Reranker unter dem Namen Ettin veröffentlicht, basierend auf den ModernBERT-Encoding-Modellen. Die Modelle sind durch Distillation von mixedbread-ai/mxbai-rerank-large-v2 trainiert und erreichen State-of-the-Art-Ergebnisse bei ihren jeweiligen Größen.&lt;/p>
&lt;h3 id="die-modellfamilie">Die Modellfamilie&lt;/h3>
&lt;ul>
&lt;li>&lt;strong>ettin-reranker-17m-v1&lt;/strong> – Kleinste Variante, ideal für Edge-Deployment&lt;/li>
&lt;li>&lt;strong>ettin-reranker-32m-v1&lt;/strong> – Kompakt für Low-Resource-Umgebungen&lt;/li>
&lt;li>&lt;strong>ettin-reranker-68m-v1&lt;/strong> – Ausgewogene Balance zwischen Leistung und Ressourcen&lt;/li>
&lt;li>&lt;strong>ettin-reranker-150m-v1&lt;/strong> – Mittelgroße Option&lt;/li>
&lt;li>&lt;strong>ettin-reranker-400m-v1&lt;/strong> – Höhere Qualität&lt;/li>
&lt;li>&lt;strong>ettin-reranker-1b-v1&lt;/strong> – Flagship-Modell&lt;/li>
&lt;/ul>
&lt;h3 id="was-macht-einen-guten-reranker">Was macht einen guten Reranker?&lt;/h3>
&lt;p>Reranker verbessern die Qualität der Retrieval-Ergebnisse, indem sie Dokumente neu ordnen, nachdem ein erstes Retrieval durchgeführt wurde. Sie arbeiten mit einem Query-Dokument-Paar und geben eine Relevanz-Score zurück. Kombiniert mit einem Embedding-Modell wie embeddinggemma-300m erreichen sie auf MTEB(eng, v2) Retrieval starke Ergebnisse.&lt;/p></description></item><item><title>Open Agent Leaderboard - Agenten systematisch bewerten</title><link>https://chaosnode.de/models/models-open-agent-leaderboard-ibm-2026-05-19/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-open-agent-leaderboard-ibm-2026-05-19/</guid><description>&lt;p>IBM Research veröffentlicht einen offenen Benchmark für AI-Agenten. Nicht nur Modelle, sondern ganze Systeme.&lt;/p>
&lt;h2 id="kurzbeschreibung">Kurzbeschreibung&lt;/h2>
&lt;p>Der Open Agent Leaderboard bewertet vollständige Agentensysteme statt einzelner Modelle und betrachtet sowohl Qualität als auch Kosten.&lt;/p>
&lt;h2 id="abstract">Abstract&lt;/h2>
&lt;p>IBM Research hat den Open Agent Leaderboard gestartet, einen offenen Benchmark, der nicht nur Modelle vergleicht, sondern vollständige Agentensysteme. Die zentrale Erkenntnis: Ein AI-Agent ist nur so gut wie sein System. Nicht nur das Modell selbst zählt, sondern auch welche Tools verfügbar sind, wie der Agent plant, was er zwischen Aktionen speichert und wie er sich bei Fehlern erholt.&lt;/p></description></item><item><title>JetBrains KI-Strategie 2026: Zwei Workflows, eine IDE</title><link>https://chaosnode.de/models/jetbrains-ki-strategie/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/jetbrains-ki-strategie/</guid><description>&lt;h2 id="klassische-und-ki-gestützte-entwicklung-im-gleichgewicht">Klassische und KI-gestützte Entwicklung im Gleichgewicht&lt;/h2>
&lt;p>JetBrains hat seine strategische Ausrichtung für 2026 skizziert und setzt dabei auf Koexistenz statt Ersatz. Das Unternehmen erkennt zwei grundlegende Arten der Code-Erstellung: den klassischen Ansatz mit manueller Eingabe,Refactoring und Debugging, sowie den neuen KI-gestützten Workflow mit Autovervollständigung und Agenten.&lt;/p>
&lt;p>Wichtig: JetBrains positioniert keinen der beiden Ansätze als überlegen. Das Ziel ist vielmehr, beide Workflows ohne gegenseitige Behinderung in den IDEs zu ermöglichen. Wer selbst codiert, soll eine fokussierte IDE erleben, bei der KI die grundlegende Coding-Erfahrung nicht stört. Wer KI generieren lässt, soll eine UX erleben, die sich natürlich und mächtig anfühlt.&lt;/p></description></item><item><title>JetBrains KI-Strategie 2026: Zwei Workflows, eine IDE</title><link>https://chaosnode.de/models/models-jetbrains-ki-strategie/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-jetbrains-ki-strategie/</guid><description>&lt;h2 id="klassische-und-ki-gestützte-entwicklung-im-gleichgewicht">Klassische und KI-gestützte Entwicklung im Gleichgewicht&lt;/h2>
&lt;p>JetBrains hat seine strategische Ausrichtung für 2026 skizziert und setzt dabei auf Koexistenz statt Ersatz. Das Unternehmen erkennt zwei grundlegende Arten der Code-Erstellung: den klassischen Ansatz mit manueller Eingabe,Refactoring und Debugging, sowie den neuen KI-gestützten Workflow mit Autovervollständigung und Agenten.&lt;/p>
&lt;p>Wichtig: JetBrains positioniert keinen der beiden Ansätze als überlegen. Das Ziel ist vielmehr, beide Workflows ohne gegenseitige Behinderung in den IDEs zu ermöglichen. Wer selbst codiert, soll eine fokussierte IDE erleben, bei der KI die grundlegende Coding-Erfahrung nicht stört. Wer KI generieren lässt, soll eine UX erleben, die sich natürlich und mächtig anfühlt.&lt;/p></description></item><item><title>Open Agent Leaderboard: IBM misst Agent-Systeme nicht nur Models</title><link>https://chaosnode.de/models/open-agent-leaderboard-agenten-benchmark-2026-05-18/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/open-agent-leaderboard-agenten-benchmark-2026-05-18/</guid><description>&lt;h2 id="warum-modelle-allein-nicht-ausreichen">Warum Modelle allein nicht ausreichen&lt;/h2>
&lt;p>IBM Research hat den Open Agent Leaderboard veröffentlicht. Der Kernsatz: &amp;ldquo;Wie gut ein AI-Agent funktioniert hängt davon ab wie er gebaut ist nicht nur vom Modell darin.&amp;rdquo; Traditionelle Benchmarks testen isolierte Modelle. Das neue Framework bewertet ganze Agent-Systeme.&lt;/p>
&lt;h2 id="was-wird-gemessen">Was wird gemessen&lt;/h2>
&lt;p>Der Leaderboard kombiniert sechs Benchmarks mit realistischen Aufgaben:&lt;/p>
&lt;ul>
&lt;li>SWE-Bench Verified: Echte Bugs in真实en Code-Repositories&lt;/li>
&lt;li>BrowseComp+: Komplexe Web-Recherche-Fragen&lt;/li>
&lt;li>AppWorld: Realistische App-Interaktionen&lt;/li>
&lt;/ul>
&lt;h2 id="qualität-und-kosten">Qualität und Kosten&lt;/h2>
&lt;p>Das Framework meldet sowohl Qualität als auch Kosten. So sieht man nicht nur was funktioniert sondern auch ob sich der Einsatz lohnt. Ein System das alles kann aber ein Vermögen kostet ist nicht allgemein einsetzbar.&lt;/p></description></item><item><title>KI-gestütztes Google Finance erreicht Europa</title><link>https://chaosnode.de/models/google-finance-ki-europa-2026-05-17/</link><pubDate>Sun, 17 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/google-finance-ki-europa-2026-05-17/</guid><description>&lt;p>Google bringt sein KI-gestütztes Google Finance nach Europa. Die überarbeitete Plattform bietet eine Reihe neuer Funktionen, die Finanzielle Analyse deutlich zugänglicher machen.&lt;/p>
&lt;h2 id="ai-powered-research">AI-powered Research&lt;/h2>
&lt;p>Die zentrale Neuerung: Nutzer können Fragen zu Aktien, Markttrends oder Wirtschaftsthemen stellen und erhalten eine KI-generierte Antwort mit Quellenverweisen.&lt;/p>
&lt;p>Für komplexere Fragen steht &amp;ldquo;Deep Search&amp;rdquo; zur Verfügung - eine Funktion, die jetzt weltweit in Google Finance verfügbar ist.&lt;/p>
&lt;h2 id="erweiterte-visualisierungen">Erweiterte Visualisierungen&lt;/h2>
&lt;p>Neue Charting-Tools gehen über einfache historische Performance hinaus:&lt;/p></description></item><item><title>SANA-WM: Open-Source-Weltmodell für minutenlange Videos</title><link>https://chaosnode.de/models/sana-wm-world-model-video-2026-05-17/</link><pubDate>Sun, 17 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/sana-wm-world-model-video-2026-05-17/</guid><description>&lt;p>NVIDIA Labs hat mit SANA-WM ein effizientes 2,6-Milliarden-Parameter-Weltmodell veröffentlicht, das nativ für einminütige Videogeneration trainiert wurde. Das Besondere: Es läuft auf einer einzigen GPU und erzeugt 720p-Videos mit präziser Kamerasteuerung.&lt;/p>
&lt;h2 id="vier-säulen-architektur">Vier-Säulen-Architektur&lt;/h2>
&lt;p>Das Modell basiert auf vier Kernkonzepten. Hybrid Linear Attention kombiniert Gated DeltaNet mit Softmax-Attention für speichereffiziente Long-Context-Modellierung. Dual-Branch Camera Control sorgt für präzise 6-DoF-Trajektorien-Adhärenz. Ein Two-Stage Generation Pipeline mit einem 17B-Long-Video-Refiner verbessert Textur und Bewegungsqualität deutlich. Eine robuste Annotation Pipeline extrahiert metrische 6-DoF-Kameraposen aus öffentlichen Videos.&lt;/p></description></item><item><title>Asynchrones Continuous Batching maximiert GPU-Auslastung</title><link>https://chaosnode.de/models/asynchrones-continuous-batching-2026-05-16/</link><pubDate>Sat, 16 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/asynchrones-continuous-batching-2026-05-16/</guid><description>&lt;p>Ein H200 kostet circa 5 Dollar pro Stunde. Das klingt günstig, aber nach einem Tag sind es bereits 120 Dollar. Wer Cloud-GPUs nutzt, will maximale Auslastung. Continuous Batching ist der erste Schritt. Asynchrones Continuous Batching ist der nächste.&lt;/p>
&lt;h2 id="das-problem-mit-synchronem-batching">Das Problem mit synchronem Batching&lt;/h2>
&lt;p>Bei synchronem Batching warten CPU und GPU aufeinander. Die GPU berechnet Tokens, während die CPU wartet. Dann bereitet die CPU den nächsten Batch vor, während die GPU wartet. In einem Loop mit hunderten Schritten pro Sekunde summieren sich diese Lücken.&lt;/p></description></item><item><title>Claude lehrt Open-Source-Modelle CUDA-Kernel zu schreiben</title><link>https://chaosnode.de/models/claude-teaches-cuda-kernels-2026-05-16/</link><pubDate>Sat, 16 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/claude-teaches-cuda-kernels-2026-05-16/</guid><description>&lt;p>Ein neuer Ansatz von HuggingFace demonstriert das &amp;ldquo;Upskilling&amp;rdquo; von Coding Agents: Ein Skill, mit dem Claude Opus komplexe CUDA-Kernel entwickelt und diese Faehigkeit dann an kleinere Open-Source-Modelle weitergibt. Das Ergebnis: Modelle, die auf Laptops laufen, koennen optimierte GPU-Kernel fuer diffusers und transformers schreiben.&lt;/p>
&lt;h2 id="das-problem">Das Problem&lt;/h2>
&lt;p>CUDA-Kernel zu schreiben ist schwierig. Die Integration mit transformers und diffusers erfordert architekturspezifische Speicherzugriffsmuster, Vektorisierungsstrategien, Warp-Shuffle-Reduktionen und Dutzende Integrationsfallen. Das Kernel Hub loeste die Distribution - mit &lt;code>get_kernel()&lt;/code> koennen vorkompilierte Kernel geladen werden. Aber jemand muss sie schreiben.&lt;/p></description></item><item><title>SANA-WM: Open-Source World Model für 1-Minuten-Videos</title><link>https://chaosnode.de/models/sana-wm-world-model-video-2026-05-16/</link><pubDate>Sat, 16 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/sana-wm-world-model-video-2026-05-16/</guid><description>&lt;p>NVIDIA Labs veröffentlicht SANA-WM, ein offenes World Model für Video-Generierung. Aus einem einzigen Startbild und einer Kamera-Trajektorie entstehen minutelange 720p-Videos - auf einer einzigen GPU.&lt;/p>
&lt;h2 id="kernfeatures">Kernfeatures&lt;/h2>
&lt;p>SANA-WM ist ein 2.6 Milliarden Parameter starkes Modell, das auf einem einzelnen H100 trainiert und deployed werden kann. Es generiert eine volle Minute Video in 720p Qualität mit präziser 6-DoF Kamerasteuerung. Die Distilled-Variante läuft sogar auf einer RTX 5090 mit NVFP4-Quantisierung und denoiset einen 60-Sekunden-Clip in nur 34 Sekunden.&lt;/p></description></item><item><title>EMO: Emergente Modularität durch Mixture-of-Experts Pretraining</title><link>https://chaosnode.de/models/models-emo-emergent-modularity-2026-05-15/</link><pubDate>Fri, 15 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-emo-emergent-modularity-2026-05-15/</guid><description>&lt;p>Allen AI veröffentlicht EMO, ein Mixture-of-Experts-Modell, das während des Pretrainings emergente modulare Struktur entwickelt — ohne menschlich definierte Domänen-Priors. Das Ergebnis: Nur 12,5% der Experten für eine Aufgabe werden benötigt, während nahezu volle Modell-Performance bleibt.&lt;/p>
&lt;h2 id="das-problem-mit-klassischen-moes">Das Problem mit klassischen MoEs&lt;/h2>
&lt;p>Mixture-of-Experts-Modelle sind theoretisch elegant: statt eines großen Feedforward-Netzwerks pro Layer viele kleinere_experts_, von denen nur eine Untermenge aktiviert wird. In der Praxis scheitern jedoch viele MoE-Ansätze daran, dass Experten sich auf low-level lexikalische Patterns spezialisieren — Präpositionen, Satzzeichen — statt auf höhere Domänen oder Fähigkeiten.&lt;/p></description></item><item><title>Granite Embedding: Multilinguale Embeddings mit 32K Kontext</title><link>https://chaosnode.de/models/models-granite-embedding-r2-2026-05-15/</link><pubDate>Fri, 15 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-granite-embedding-r2-2026-05-15/</guid><description>&lt;p>IBM Granite veröffentlicht zwei neue Apache 2.0 Embedding-Modelle: ein kompaktes 97M-Modell, das auf MTEB Multilingual Retrieval mit 60.3 den Spitzenplatz unter 100M Parametern einnimmt, und ein 311M-Vollmodell, das mit 65.2 auf Platz 2 unter 500M landet. Beide unterstützen 32K-Token-Kontext und über 200 Sprachen.&lt;/p>
&lt;h2 id="die-herausforderung-multilingualer-embeddings">Die Herausforderung multilingualer Embeddings&lt;/h2>
&lt;p>Multilingual Embeddings stehen immer vor einem Spannungsverhältnis: Breite Sprachabdeckung kostet meist Model-Größe, und kleine Modelle opfern oft Sprachunterstützung. Wer mit multilingualen Korpora arbeitet, kennt die Wahl zwischen einem Modell, das schnell genug ist, und einem, das gut genug ist.&lt;/p></description></item><item><title>IBMs Granite Embedding R2: Multilinguale Embeddings mit Apache 2.0</title><link>https://chaosnode.de/models/granite-embedding-multilingual-r2-2026-05-15/</link><pubDate>Fri, 15 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/granite-embedding-multilingual-r2-2026-05-15/</guid><description>&lt;p>IBM veröffentlichte Granite Embedding Multilingual R2 auf HuggingFace – ein offenes Apache-2.0-Embedding-Modell mit 32K Kontext und bester Retrieval-Qualität unter den Sub-100M-Modellen.&lt;/p>
&lt;h2 id="technische-highlights">Technische Highlights&lt;/h2>
&lt;p>Das Modell bietet multilingualen Support mit einem Kontextfenster von 32.768 Token, was es ideal für RAG-Anwendungen mit langen Dokumenten macht. Die Architektur ist auf Effizienz optimiert: Mit weniger als 100M Parametern bleibt die Inference kostengünstig, während die Retrieval-Performance mit größeren Modellen mithält.&lt;/p>
&lt;p>Die Apache-2.0-Lizenz ermöglicht kommerzielle Nutzung ohne Einschränkungen – ein wichtiger Aspekt für Unternehmen, die Embeddings in Produktion einsetzen möchten.&lt;/p></description></item><item><title>DeepSeek-V4: 1 Million Token Context endlich nutzbar</title><link>https://chaosnode.de/models/deepseek-v4-1m-context-agents-2026-05-14/</link><pubDate>Thu, 14 May 2026 06:00:00 +0000</pubDate><guid>https://chaosnode.de/models/deepseek-v4-1m-context-agents-2026-05-14/</guid><description>&lt;p>DeepSeek hat V4 veröffentlicht und die Benchmarks sind beeindruckend, aber nicht SOTA. Das ist aber gar nicht der Punkt. Die wahre Innovation liegt in der Architektur, die extrem lange Kontexte tatsächlich praktisch nutzbar macht - speziell für Agenten-Workloads.&lt;/p>
&lt;h2 id="das-problem-mit-langem-kontext">Das Problem mit langem Kontext&lt;/h2>
&lt;p>Ein 1M Token Context Window ist nur Kapazität, nicht Performance. Bei Agenten, die lange Tool-Use-Trajektorien durchlaufen, wird jedes Tool-Ergebnis an den Kontext angehängt. Jeder nachfolgende Token zahlt die volle Attention-Kosten gegen alles bisherige.&lt;/p></description></item><item><title>Needle: Winziger 26M-KI für Tool-Aufrufe auf Mobilgeräten</title><link>https://chaosnode.de/models/needle-26m-function-calling-mobile-2026-05-14/</link><pubDate>Thu, 14 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/needle-26m-function-calling-mobile-2026-05-14/</guid><description>&lt;p>Cactus Compute hat Needle veröffentlicht, ein Open-Source-Sprachmodell mit nur 26 Millionen Parametern, das speziell für Function-Calling auf Mobilgeräten optimiert ist. Das Modell erreicht 6000 Token/s beim Prefetch und 1200 Token/s beim Decoding auf Consumer-Hardware - schnell genug für Echtzeitanwendungen auf Smartphones, Smartwatches und Wearables.&lt;/p>
&lt;p>Die Architektur bricht mit Konventionen: Needle verzichtet vollständig auf Feed-Forward-Networks (FFN) und basiert ausschließlich auf Attention-Mechanismen und Gating. Die Entwickler erkannten, dass Function-Calling im Kern ein Retrieval-and-Assembly-Problem ist - Query-zu-Tool-Zuordnung, Argument-Extraktion, JSON-Generierung - und keine komplexen Reasoning-Fähigkeiten erfordert. Cross-Attention ist das richtige Primitive für diese Aufgabe, FFN-Parameter wären verschwendet.&lt;/p></description></item><item><title>Foundation Models auf AWS: Bausteine für Training und Inference</title><link>https://chaosnode.de/models/models-aws-foundation-blocks/</link><pubDate>Wed, 13 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-aws-foundation-blocks/</guid><description>&lt;p>Amazon veröffentlicht einen umfassenden Leitfaden zur Infrastruktur für Foundation-Model-Training und -Inference auf AWS. Der Fokus liegt auf der Konvergenz von drei kritischen Anforderungen: eng gekoppelte Accelerator-Compute, hochbandige Low-Latency-Netzwerke und verteilter Storage.&lt;/p>
&lt;h2 id="die-drei-skalierungsgesetze-der-ki">Die drei Skalierungsgesetze der KI&lt;/h2>
&lt;p>NVIDIAs &amp;ldquo;Three Scaling Laws&amp;rdquo;-Konzept unterteilt die Skalierung nicht mehr nur in Pre-Training: Post-Training (SFT, RL) und Test-Time-Compute (Chain-of-Thought, Multi-Sample-Strategien) werden immer wichtiger. Alle drei Regime benötigen ähnliche Infrastrukturkomponenten, was die Systemarchitektur vereinfacht, aber auch spezifische Anforderungen an die Netzwerk- und Speicherebene stellt.&lt;/p></description></item><item><title>OpenAI veröffentlicht GPT OSS als Open-Source-Modellfamilie</title><link>https://chaosnode.de/models/openai-gpt-oss-open-source-2026-05-13/</link><pubDate>Wed, 13 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/openai-gpt-oss-open-source-2026-05-13/</guid><description>&lt;p>GPT OSS ist der lang erwartete Open-Weights-Release von OpenAI, entwickelt für leistungsstarke Reasoning-, Agenten- und vielseitige Entwickler-Anwendungen. Die Modellfamilie besteht aus zwei Varianten: einem großen Modell mit 117 Milliarden Parametern (gpt-oss-120b) und einem kleineren mit 21 Milliarden Parametern (gpt-oss-20b).&lt;/p>
&lt;h2 id="technische-spezifikationen">Technische Spezifikationen&lt;/h2>
&lt;p>Beide Modelle basieren auf der Mixture-of-Experts (MoE) Architektur und nutzen ein 4-Bit-Quantisierungsschema (MXFP4). Diese Kombination ermöglicht schnelle Inferenz durch weniger aktive Parameter bei gleichzeitig geringem Ressourcenverbrauch. Das große Modell passt auf eine einzelne H100-GPU, während das kleine Modell mit nur 16GB Arbeitsspeicher läuft – ideal für Consumer-Hardware und On-Device-Anwendungen.&lt;/p></description></item><item><title>DeepInfra: Kostengünstiger Inference-Provider auf Hugging Face</title><link>https://chaosnode.de/models/deepinfra-huggingface-inference-provider/</link><pubDate>Tue, 12 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/deepinfra-huggingface-inference-provider/</guid><description>&lt;p>DeepInfra ist jetzt offizieller Inference-Provider auf Hugging Face. Das Platform bietet mit über 100 Modellen eine der kostengünstigsten Token-Preise der Branche und integriert sich nahtlos in die Hugging Face SDKs.&lt;/p>
&lt;h2 id="das-angebot">Das Angebot&lt;/h2>
&lt;p>DeepInfra deckt ein breites Spektrum ab: LLMs für Text-Generierung, Text-to-Image, Text-to-Video, Embeddings und mehr. Zum Launch stehen Conversational- und Text-Generation-Tasks mit Modellen wie DeepSeek V4 Pro, Kimi-K2.6 und GLM-5.1 bereit. Weitere Task-Typen folgen in Kürze.&lt;/p>
&lt;h2 id="wie-die-integration-funktioniert">Wie die Integration funktioniert&lt;/h2>
&lt;p>Entwickler haben zwei Optionen: Eigene API-Keys direkt bei DeepInfra hinterlegen – dann laufen die Calls direkt zum Provider. Oder HF-Route verwenden – dann wird über das HuggingFace-Konto abgerechnet, ohne separaten DeepInfra-Token. In den User-Settings kann man Provider nach Präferenz ordnen, was sich auf Code-Snippets und Widgets auswirkt.&lt;/p></description></item><item><title>vLLM V1: Korrektheit vor Korrekturen im RL-Training</title><link>https://chaosnode.de/models/vllm-v1-rl-correctness-training/</link><pubDate>Tue, 12 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/vllm-v1-rl-correctness-training/</guid><description>&lt;p>ServiceNow veröffentlicht wichtige Erkenntnisse zu vLLM V1 im Kontext von Reinforcement Learning. Der Kernpunkt: Im RL-Training ist Korrektheit wichtiger als Post-Hoc-Korrekturen. Modelle sollten von Anfang an richtige Ausgaben produzieren statt auf Korrektur-Schleifen zu vertrauen.&lt;/p>
&lt;p>Die Studie zeigt, dass Modelle, die mit korrektem Output trainiert werden, deutlich bessere Ergebnisse erzielen als solche, die auf nachträgliche Korrekturen basieren. Das hat weitreichende Implikationen für die gesamte RLHF-Pipeline und wie wir Language Models trainieren.&lt;/p></description></item><item><title>Claude als User-Space IP-Stack: Ping in 45 Sekunden</title><link>https://chaosnode.de/models/models-claude-ip-stack/</link><pubDate>Mon, 11 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-claude-ip-stack/</guid><description>&lt;h2 id="ein-absurdes-experiment">Ein absurdes Experiment&lt;/h2>
&lt;p>Adam Dunkels stellte sich die Frage: Wenn Claude Byte für Byte IP-Pakete liest und verarbeitet, wie schnell kann es auf einen Ping antworten? Die Antwort ist genauso lächerlich wie faszinierend: etwa 42 Sekunden Round-Trip-Time.&lt;/p>
&lt;h2 id="die-technische-umsetzung">Die technische Umsetzung&lt;/h2>
&lt;p>Claude liest Pakete von einem &lt;code>/dev/tun0&lt;/code> Device, parst IP-Header, berechnet Checksummen und antwortet mit korrekt geformten ICMP Echo Replys. Das gesamte IP-Handling geschieht im LLM-Kontext – jedes Byte wird als Hex interpretiert, Header-Felder extrahiert, und die Antwort manuell konstruiert.&lt;/p></description></item><item><title>EMO: Mixture of Experts mit emergenter Modularität</title><link>https://chaosnode.de/models/emo-mixture-of-experts-modularity-2026-05-11/</link><pubDate>Mon, 11 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/emo-mixture-of-experts-modularity-2026-05-11/</guid><description>&lt;p>EMO revolutioniert die Mixture-of-Experts-Architektur durch emergente Modularität: Anstatt Experten auf menschlich vordefinierte Domains zu beschränken, lernt das Modell selbstständig welche Experten sich zu funktionsfähigen Einheiten zusammenschließen. Das Resultat ist ein System, das mit nur 12.5% seiner Experten fast die volle Modell-Performance beibehält - ein Paradigmenwechsel für effiziente MoE-Deployment-Szenarien.&lt;/p>
&lt;p>&lt;strong>Was ist das Problem mit klassischen MoE-Modellen?&lt;/strong>&lt;/p>
&lt;p>Moderne Sprachmodelle werden typischerweise als monolithische Systeme trainiert und deployed - ein riesiges Modell für alles. Aber in der Praxis braucht man oft nur spezifische Fähigkeiten: Code-Generierung, mathematisches Reasoning oder Fachwissen aus bestimmten Domains. Bei Modellen mit Billionen von Parametern wird das Laden des kompletten Modells für viele Anwendungen unpraktikabel. Das Hosting von Parametern, die man gar nicht braucht, verschwendet Rechenleistung und Speicher.&lt;/p></description></item><item><title>vLLM V1: Weniger Drift bei RL-Training</title><link>https://chaosnode.de/models/models-vllm-v1-migration/</link><pubDate>Mon, 11 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/models-vllm-v1-migration/</guid><description>&lt;h2 id="die-migration-problematik">Die Migration-Problematik&lt;/h2>
&lt;p>Der Wechsel von vLLM V0 auf V1 ist kein einfaches Update, sondern ein fundamentaler Rewrite der Inference-Engine. Für Reinforcement Learning workloads wie GSPO oder PPO ist das kritisch: Jede Abweichung in der Logprob-Berechnung verändert die Trainingsdynamik.&lt;/p>
&lt;h2 id="die-vier-kritischen-fixes">Die vier kritischen Fixes&lt;/h2>
&lt;p>ServiceNow AI dokumentiert die notwendigen Anpassungen: Erstens muss &lt;code>logprobs-mode=processed_logprobs&lt;/code> gesetzt werden, damit die Logprobs nach Temperatur und Sampling-Filtern berechnet werden. Zweitens gelten für V1 andere Runtime-Defaults. Drittens muss der Inflight-Weight-Update-Pfad angepasst werden. Viertens ist ein fp32 &lt;code>lm_head&lt;/code> für die finale Projektion notwendig.&lt;/p></description></item><item><title>IBM Granite 4.1: Dense LLMs mit 512K Context</title><link>https://chaosnode.de/models/ibm-granite-41-llms-technisch-2026-05-10/</link><pubDate>Sun, 10 May 2026 06:00:00 +0000</pubDate><guid>https://chaosnode.de/models/ibm-granite-41-llms-technisch-2026-05-10/</guid><description>&lt;p>IBM veröffentlicht Granite 4.1 – eine Familie von Dense-LLMs unter Apache 2.0 Lizenz, trainiert auf 15 Trillionen Tokens mit einem raffinierten Five-Stage-Training-Pipeline.&lt;/p>
&lt;h2 id="model-größen">Model-Größen&lt;/h2>
&lt;p>Granite 4.1 kommt in drei Größen:&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>Modell&lt;/th>
 &lt;th>Parameter&lt;/th>
 &lt;th>Embedding&lt;/th>
 &lt;th>Layer&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>3B&lt;/td>
 &lt;td>3 Milliarden&lt;/td>
 &lt;td>2560&lt;/td>
 &lt;td>40&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>8B&lt;/td>
 &lt;td>8 Milliarden&lt;/td>
 &lt;td>4096&lt;/td>
 &lt;td>40&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>30B&lt;/td>
 &lt;td>30 Milliarden&lt;/td>
 &lt;td>4096&lt;/td>
 &lt;td>64&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>Alle nutzen &lt;strong>Grouped Query Attention (GQA)&lt;/strong>, &lt;strong>RoPE&lt;/strong>, &lt;strong>SwiGLU&lt;/strong> und &lt;strong>RMSNorm&lt;/strong>. Die 8B-Instruct-Variante erreicht ähnliche Performance wie Granite 4.0-H-Small (ein 32B MoE), trotz weniger Parameter.&lt;/p></description></item><item><title>Mixture-of-Experts mit emergenter Modularität: Allen AI veröffentlicht EMO</title><link>https://chaosnode.de/models/mixture-of-experts-emergent-modularity-2026-05-10/</link><pubDate>Sun, 10 May 2026 06:00:00 +0200</pubDate><guid>https://chaosnode.de/models/mixture-of-experts-emergent-modularity-2026-05-10/</guid><description>&lt;h2 id="emergente-expert-spezialisierung-ohne-menschliche-labels">Emergente Expert-Spezialisierung ohne menschliche Labels&lt;/h2>
&lt;p>Allen AI veröffentlicht EMO (Emergent Mixture of Experts), ein neues MoE-Modell, das modular Struktur direkt aus den Daten lernt – ohne vordefinierte semantische Domains wie &amp;ldquo;Math&amp;rdquo;, &amp;ldquo;Code&amp;rdquo; oder &amp;ldquo;Biologie&amp;rdquo;. Trainiert auf 1 Billion Token mit 1B aktiven und 14B totalen Parametern (8-Expert-aktiv, 128-Expert-total).&lt;/p>
&lt;p>Der Clou: Für einen gegebenen Task oder Domain können Nutzer nur einen kleinen Subset der Experten nutzen (12.5% der Experten) und behalten fast die volle Modell-Performance. Gleichzeitig bleibt EMO ein starkes General-Purpose-Modell, wenn alle Experten zusammen verwendet werden.&lt;/p></description></item><item><title>CyberSecQwen-4B: Spezialisiertes Sicherheitsmodell schlägt Cisco-8B-Baseline</title><link>https://chaosnode.de/models/cybersecqwen-4b-security-model-2026-05-09/</link><pubDate>Sat, 09 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/cybersecqwen-4b-security-model-2026-05-09/</guid><description>&lt;h2 id="klein-lokal-leistungsstark">Klein, lokal, leistungsstark&lt;/h2>
&lt;p>Ein neue 4-Milliarden-Parameter-Modell beweist, dass spezialisierte Fine-Tunes größere Generalisten schlagen können. CyberSecQwen-4B wurde für Cyber-Threat-Intelligence-Aufgaben trainiert und erreicht auf CTI-Bench +8.7 Punkte über Ciscos Foundation-Sec-Instruct-8B, bei halber Parameterzahl.&lt;/p>
&lt;h2 id="warum-lokale-modelle-für-defensive-security-wichtig-sind">Warum lokale Modelle für Defensive Security wichtig sind&lt;/h2>
&lt;p>Frontier-Modelle sind teuer in der API-Nutzung, senden jeden Prompt an fremde Rechenzentren und weigern sich oft, die unangenehmen Edge-Cases zu bearbeiten, mit denen echte Verteidiger leben. Für Defensive Cybersecurity ist keiner dieser Tradeoffs akzeptabel:&lt;/p></description></item><item><title>EMO: Mixtur-of-Experts mit emergenter Modularität von Allen AI</title><link>https://chaosnode.de/models/emo-mixture-of-experts-2026-05-09/</link><pubDate>Sat, 09 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/emo-mixture-of-experts-2026-05-09/</guid><description>&lt;h2 id="experten-die-sich-selbst-organisieren">Experten, die sich selbst organisieren&lt;/h2>
&lt;p>Allen AI hat EMO veröffentlicht, ein Mixture-of-Experts-Modell, dessen modulare Struktur direkt aus den Trainingsdaten entsteht, ohne menschlich definierte Prioritäten. EMO ermöglicht es, einen kleinen Teil seiner Experten für eine bestimmte Aufgabe zu nutzen, während die volle Modellleistung beibehalten wird.&lt;/p>
&lt;h2 id="das-problem-mit-klassischen-moes">Das Problem mit klassischen MoEs&lt;/h2>
&lt;p>MoE-Modelle enthalten viele kleinere Netzwerke, sogenannte Experten, und aktivieren nur einen kleinen Teil für jeden Input-Token. In der Praxis benötigen bestehende MoEs jedoch immer noch das vollständige Modell. Experten spezialisieren sich oft auf niedrig-level lexikalische Muster wie Präpositionen oder Satzzeichen, statt auf höhere Domänen oder Fähigkeiten.&lt;/p></description></item><item><title>Subquadratic: 12 Millionen Token Kontext ohne quadratische Kosten</title><link>https://chaosnode.de/models/subquadratic-12-million-context-2026-05-09/</link><pubDate>Sat, 09 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/subquadratic-12-million-context-2026-05-09/</guid><description>&lt;h2 id="die-context-window-revolution">Die Context-Window-Revolution&lt;/h2>
&lt;p>Die Aufmerksamkeitskosten bei Transformers skalieren quadratisch mit der Kontextlänge. Ein Start-up aus Miami behauptet nun, dieses fundamentale Problem gelöst zu haben: Subquadratic Selective Attention (SSA) skaliert linear – und das bei 12 Millionen Token Kontext.&lt;/p>
&lt;h2 id="die-benchmarks">Die Benchmarks&lt;/h2>
&lt;p>Auf MRCR v2, dem Multi-Reference Retrieval Benchmark, erreicht Subquadratic 83 Punkte und schlägt damit GPT-5.5 (74 Punkte) und Claude Opus 4.7 (32,2 Punkte). Die Needle-in-Haystack-Retrieval bei 12 Millionen Token liegt bei 92,1%. Das Modell ist 52-mal schneller als dense Attention bei einer Million Token.&lt;/p></description></item><item><title>Granite 4.1: IBMs Enterprise-LLMs mit 512K Kontext</title><link>https://chaosnode.de/models/granite-41-ibm-enterprise-models-2026-05-08/</link><pubDate>Fri, 08 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/granite-41-ibm-enterprise-models-2026-05-08/</guid><description>&lt;p>IBM veröffentlicht Granite 4.1: Dense Decoder-LLMs in 3B, 8B und 30B mit Apache-2.0-Lizenz und beeindruckenden Benchmarks.&lt;/p>
&lt;h2 id="kurzbeschreibung">Kurzbeschreibung&lt;/h2>
&lt;p>Die neue Granite-Familie nutzt ein fünfstufiges Pretraining mit qualitätsorientiertem Data-Annealing. Das 8B-Modell schlägt das vorherige Granite 4.0-H-Small (32B MoE) trotz wenigerer Parameter – ein Triumph von Datenqualität über Skalierung.&lt;/p>
&lt;h2 id="abstract">Abstract&lt;/h2>
&lt;p>Granite 4.1 demonstriert, dass kleine Modelle mit rigoroser Datenkuratierung große Modelle schlagen können. Die Architektur nutzt Grouped Query Attention, RoPE-Embeddings, SwiGLU-Aktivierungen und shared Embeddings. Trainiert auf 15 Trillionen Tokens in fünf Phasen: Phase 1-2 bauen breites Sprachverständnis auf, Phase 3-4 nutzen Data Annealing mit qualitativ hochwertigem Content, und Phase 5 dehnt den Kontext auf 512K Tokens aus.&lt;/p></description></item><item><title>vLLM V1 Migration: Korrektheit vor Korrekturen im RL-Training</title><link>https://chaosnode.de/models/vllm-v1-rl-training-2026-05-08/</link><pubDate>Fri, 08 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/vllm-v1-rl-training-2026-05-08/</guid><description>&lt;p>ServiceNow dokumentiert die Herausforderungen bei der Migration von vLLM V0 zu V1 für Reinforcement Learning Training.&lt;/p>
&lt;h2 id="kurzbeschreibung">Kurzbeschreibung&lt;/h2>
&lt;p>Der Wechsel von vLLM V0 auf V1 zeigte Trainingsinstabilitäten. Die Lösung: Semantische Logprob-Fixes, Runtime-Defaults und die korrekte float32 Projektion, bevor das RL-Objektiv angepasst wird.&lt;/p>
&lt;h2 id="abstract">Abstract&lt;/h2>
&lt;p>PipelineRL nutzt vLLM als Inference-Engine für Rollout-Generierung im RL-Training. Die Inference-Engine sampelt Tokens und liefert Logprobs; der Trainer nutzt diese für Policy-Ratios, KL, Clip-Rate und Reward. Jede Diskrepanz in der Logprob-Berechnung verändert die Trainingsdynamik – ein sogenannter Train-Inference Mismatch.&lt;/p></description></item><item><title>Chinesisches Modell Kimi K2.6 überrascht im Coding-Wettbewerb</title><link>https://chaosnode.de/models/kimi-k26-beats-claude-gpt-2026-05-03/</link><pubDate>Sun, 03 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/kimi-k26-beats-claude-gpt-2026-05-03/</guid><description>&lt;h2 id="ein-unerwarteter-sieger">Ein unerwarteter Sieger&lt;/h2>
&lt;p>Im laufenden AI Coding Contest hat das chinesische Modell Kimi K2.6 von Moonshot AI für eine Überraschung gesorgt: Es schlug Claude Opus 4.7, GPT-5.5 und Gemini Pro 3.1 in einem direkten Vergleich. Die Challenge war ein Word-Gem-Puzzle, bei dem KIs Buchstaben auf einem Gitter anordnen und gültige englische Wörter bilden mussten.&lt;/p>
&lt;p>Die Ergebnisse: Kimi K2.6 erreichte 22 Match-Punkte mit einer Bilanz von 7-1-0. Auf Platz zwei landete MiMo V2-Pro von Xiaomi mit 20 Punkten. Erst auf den Plätzen drei bis fünf folgten die westlichen Modelle GPT-5.5, GLM 5.1 und Claude Opus 4.7.&lt;/p></description></item><item><title>KI-Evaluation wird zum neuen Compute-Engpass</title><link>https://chaosnode.de/models/ai-eval-compute-bottleneck-2026-05-03/</link><pubDate>Sun, 03 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/ai-eval-compute-bottleneck-2026-05-03/</guid><description>&lt;h2 id="wenn-testen-teurer-wird-als-training">Wenn Testen teurer wird als Training&lt;/h2>
&lt;p>Eine neue Analyse von Hugging Face und der EvalEval Coalition zeigt eine Verschiebung im KI-Landschaft: Die Kosten für Modell-Evaluation könnten bald die Trainingskosten übersteigen. Der Grund ist die zunehmende Komplexität von Agenten-Benchmarks und die Notwendigkeit wiederholter Läufe für zuverlässige Ergebnisse.&lt;/p>
&lt;p>Konkret: Der Holistic Agent Leaderboard (HAL) gab etwa 40.000 Dollar aus, um 21.730 Agenten-Rollen über 9 Modelle und 9 Benchmarks zu testen. Ein einziger GAIA-Lauf mit einem Frontier-Modell kostet 2.829 Dollar – vor Caching. Exgentic gab 22.000 Dollar aus, um verschiedene Agenten-Konfigurationen zu testen, und fand einen Kostenspreizungsfaktor von 33x für identische Aufgaben.&lt;/p></description></item><item><title>VAKRA: Agenten unter der Lupe</title><link>https://chaosnode.de/models/vakra-agent-benchmark-analysis-2026-05-02/</link><pubDate>Sat, 02 May 2026 18:00:00 +0200</pubDate><guid>https://chaosnode.de/models/vakra-agent-benchmark-analysis-2026-05-02/</guid><description>&lt;p>IBM Research hat eine detaillierte Analyse der VAKRA-Benchmark veröffentlicht, die aufzeigt, wo aktuelle Sprachmodelle bei Tool-Nutzung und Reasoning scheitern.&lt;/p>
&lt;h2 id="kurzbeschreibung">Kurzbeschreibung&lt;/h2>
&lt;p>Die neue Analyse von IBM Research deckt die systematischen Fehlermuster auf, die bei der VAKRA-Agenten-Benchmark auftreten – von API-Missbrauch über Tool-Chain-Fehler bis zu Reasoning-Schwächen in mehrstufigen Workflows.&lt;/p>
&lt;h2 id="abstract">Abstract&lt;/h2>
&lt;p>Nach der Einführung von VAKRA im April 2026 folgt nun die tiefgehende Analyse der Ergebnisse. VAKRA testet AI-Agenten in unternehmensnahen Umgebungen mit über 8.000 lokal gehosteten APIs, 62 Domänen und natürlichen Tool-Use-Constraints. Die Aufgaben benötigen 3-7-Schritt-Reasoning-Ketten, die strukturierte API-Interaktion mit unstrukturierter Dokumentenretrieval kombinieren.&lt;/p></description></item><item><title>DeepInfra als neuer Inference-Provider auf Hugging Face</title><link>https://chaosnode.de/models/deepinfra-huggingface-inference-2026-05-01/</link><pubDate>Fri, 01 May 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/deepinfra-huggingface-inference-2026-05-01/</guid><description>&lt;p>Hugging Face hat DeepInfra als neuen Inference-Provider in sein Ökosystem aufgenommen. DeepInfra ist eine serverlose KI-Inferenz-Plattform, die mit einem Katalog von über 100 Modellen eine der kostengünstigsten Preismodelle pro Token in der Branche anbietet.&lt;/p>
&lt;p>Die Integration ermöglicht Entwicklern den Zugriff auf beliebte Open-Weight-LLMs wie DeepSeek V4, Kimi-K2.6 und GLM-5.1 direkt über die Hugging Face Hub-Modellseiten. Initial unterstützt DeepInfra Konversations- und Textgenerierungsaufgaben. Weitere Aufgaben wie Text-zu-Bild, Text-zu-Video und Embeddings werden in Kürze folgen.&lt;/p></description></item><item><title>IBMs Granite 4.1: Open-Source LLMs für Enterprise</title><link>https://chaosnode.de/models/granite-41-ibm-llms-2026-04-29/</link><pubDate>Wed, 29 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/granite-41-ibm-llms-2026-04-29/</guid><description>&lt;p>IBM stellt Granite 4.1 vor - eine Familie von Dense-LLMs in drei Grössen (3B, 8B, 30B), alle unter Apache 2.0 Lizenz. Der 8B Instruct übertrifft den Vorgänger Granite 4.0-H-Small (32B MoE), trotz weniger Parameter.&lt;/p>
&lt;h2 id="trainingspipeline">Trainingspipeline&lt;/h2>
&lt;p>Die Modelle wurden auf ~15 Billionen Token trainiert, verteilt auf fünf Phasen:&lt;/p>
&lt;ul>
&lt;li>Phase 1-2: Generelles Pre-Training (10T Token)&lt;/li>
&lt;li>Phase 3-4: Mid-Training mit qualitätsveredelten Daten&lt;/li>
&lt;li>Phase 5: Long-Context Training bis 512K Token&lt;/li>
&lt;/ul>
&lt;h2 id="architektur">Architektur&lt;/h2>
&lt;p>Granite 4.1 nutzt Grouped Query Attention (GQA), Rotary Position Embeddings (RoPE), SwiGLU-Aktivierungen und RMSNorm. Geteilte Input/Output Embeddings reduzieren Parameter.&lt;/p></description></item><item><title>NVIDIA Nemotron 3 Nano Omni: Multimodal fuer Dokumente, Audio und Video</title><link>https://chaosnode.de/models/nemotron-3-nano-omni-2026-04-29/</link><pubDate>Wed, 29 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/nemotron-3-nano-omni-2026-04-29/</guid><description>&lt;p>NVIDIA stellte Nemotron 3 Nano Omni vor, ein omni-modales Verstaendnismodell fuer Text, Bild, Video und Audio. Es erweitert die Nemotron-Produktlinie von einem reinen Vision-Language-System zu einem echten Alleskoenner.&lt;/p>
&lt;h2 id="best-in-class-benchmarks">Best-in-Class Benchmarks&lt;/h2>
&lt;p>Nemotron 3 Nano Omni liefert Top-Ergebnisse auf:&lt;/p>
&lt;ul>
&lt;li>&lt;strong>MMlongbench-Doc&lt;/strong>: Komplexe Dokumentenanalyse&lt;/li>
&lt;li>&lt;strong>OCRBenchV2&lt;/strong>: Texterkennung und -verstaendnis&lt;/li>
&lt;li>&lt;strong>WorldSense&lt;/strong>: Video-Understanding&lt;/li>
&lt;li>&lt;strong>DailyOmni&lt;/strong>: Multimodale Alltagsszenarien&lt;/li>
&lt;/ul>
&lt;h2 id="omni-modal-verstehen">Omni-Modal verstehen&lt;/h2>
&lt;p>Das Modell verarbeitet nicht nur Text und Bilder, sondern auch:&lt;/p>
&lt;ul>
&lt;li>Dokumenten-PDFs mit Layout-Verstaendnis&lt;/li>
&lt;li>Audio-Streams fuer Speech Recognition&lt;/li>
&lt;li>Videos mit temporaler Reasoning&lt;/li>
&lt;li>Kombinationen aller Modalitaeten&lt;/li>
&lt;/ul>
&lt;h2 id="fuer-agenten-optimiert">Fuer Agenten optimiert&lt;/h2>
&lt;p>Die Architektur zielt auf Agenten-Workloads ab:&lt;/p></description></item><item><title>NVIDIA Nemotron 3 Nano Omni: Multimodal für Agenten</title><link>https://chaosnode.de/models/nemotron-nano-omni-multimodal/</link><pubDate>Tue, 28 Apr 2026 18:00:00 +0200</pubDate><guid>https://chaosnode.de/models/nemotron-nano-omni-multimodal/</guid><description>&lt;p>NVIDIA erweitert die Nemotron-Familie mit Nemotron 3 Nano Omni, einem omni-modalen Verständnismodell für Text, Bild, Video und Audio. Das Modell ist spezifisch für reale Dokumentenanalyse, Multi-Image-Reasoning, automatische Spracherkennung, lange Audio-Video-Verarbeitung und Agenten-Computer-Use optimiert.&lt;/p>
&lt;p>Auf komplexen Dokumenten-Intelligence-Leaderboards erzielt das Modell Top-Ergebnisse: MMLongBench-Doc, OCRBenchV2, WorldSense für Video und DailyOmni für Audio. Die Architektur wurde mit Fokus auf Effizienz und Desktop-Deployment entwickelt. Nemotron 3 Nano Omni läuft auf einzelnen Consumer-GPUs und ist damit für Entwickler zugänglicher als typische Enterprise-Modelle.&lt;/p></description></item><item><title>OpenAI Privacy Filter: Skalierbare Web-Apps mit PII-Erkennung</title><link>https://chaosnode.de/models/openai-privacy-filter-scalable-apps/</link><pubDate>Tue, 28 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/openai-privacy-filter-scalable-apps/</guid><description>&lt;p>OpenAI hat seinen &lt;strong>Privacy Filter&lt;/strong> auf Hugging Face veröffentlicht. Das 1,5 Milliarden Parameter-Modell mit 50 Millionen aktiven Parametern erkennt persönlich identifizierbare Informationen (PII) in einem einzigen Forward-Pass über 128.000 Token Kontext.&lt;/p>
&lt;h2 id="acht-pii-kategorien">Acht PII-Kategorien&lt;/h2>
&lt;p>Das Modell deckt acht Kategorien ab: private_person, private_address, private_email, private_phone, private_url, private_date, account_number und secret. Die BIOES-Kodierung sorgt für saubere Span-Grenzen auch bei langen, mehrdeutigen Textpassagen.&lt;/p>
&lt;p>Besonders bemerkenswert: Der gesamte Dokumentinhalt wird ohne Chunking verarbeitet, was bedeutet, dass Span-Offsets direkt mit dem gerenderten Text übereinstimmen. Kein Zusammenfügen fragmentierter Ergebnisse mehr.&lt;/p></description></item><item><title>Wie Googles TPUs die moderne KI antreiben</title><link>https://chaosnode.de/models/google-tpu-explained-2026/</link><pubDate>Mon, 27 Apr 2026 18:00:00 +0200</pubDate><guid>https://chaosnode.de/models/google-tpu-explained-2026/</guid><description>&lt;p>Google hat ein neues Erklärvideo veröffentlicht, das die Funktionsweise der Tensor Processing Units (TPUs) illuminier – der maßgeschneiderten Chips, die hinter fast allen Google-Produkten stehen.&lt;/p>
&lt;p>TPUs wurden vor über einem Jahrzehnt speziell für KI-Modelle entwickelt. Im Gegensatz zu generischen CPUs oder GPUs sind sie auf eine Aufgabe optimiert: komplexe mathematische Operationen in extremem Maßstab auszuführen. Für neuronale Netze bedeutet das vor allem Matrix-Multiplikationen, die TPUs deutlich schneller bewältigen als herkömmliche Hardware.&lt;/p></description></item><item><title>SWE-bench Verified verliert an Aussagekraft für Frontier-Modelle</title><link>https://chaosnode.de/models/swe-bench-verified-limit/</link><pubDate>Mon, 27 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/swe-bench-verified-limit/</guid><description>&lt;h2 id="swe-bench-verified-verliert-an-aussagekraft-für-frontier-modelle">SWE-bench Verified verliert an Aussagekraft für Frontier-Modelle&lt;/h2>
&lt;p>Die Bewertungslandschaft für KI-Modelle verändert sich rasant. OpenAI hat bekanntgegeben, dass sie SWE-bench Verified nicht mehr zur Evaluierung ihrer Frontier-Modelle verwenden werden. Der Grund: Der Benchmark misst nicht mehr das, was moderne Coding-Assistenten tatsächlich können.&lt;/p>
&lt;h3 id="was-ist-swe-bench-verified">Was ist SWE-bench Verified?&lt;/h3>
&lt;p>SWE-bench Verified war lange Zeit der Standard für die Bewertung von Software-Engineering-Fähigkeiten bei KI-Modellen. Der Test misst, wie gut ein Modell echte GitHub-Issues versteht und entsprechende Pull Requests erstellen kann. Die Aufgaben umfassen Bugfixes, Feature-Implementierungen und Refactorings aus realen Open-Source-Projekten.&lt;/p></description></item><item><title>Granite 4.0 3B Vision: IBMs kompakter VLM für Enterprise-Dokumente</title><link>https://chaosnode.de/models/granite-4-vision-ibm/</link><pubDate>Sun, 26 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/granite-4-vision-ibm/</guid><description>&lt;h2 id="spezialist-statt-generalist">Spezialist statt Generalist&lt;/h2>
&lt;p>Granite 4.0 3B Vision geht einen anderen Weg als die meisten Vision-Language-Modelle. Statt alles zu können, fokussiert sich das 3-Milliarden-Parameter-Modell auf eine kritische Enterprise-Anforderung: Das zuverlässige Extrahieren strukturierter Informationen aus komplexen Dokumenten.&lt;/p>
&lt;p>Die Kernfähigkeiten sind praxisorientiert: Tabellenextraktion aus mehrzeiligen und mehrspaltigen Strukturen, Chart-Verständnis mit Umwandlung in strukturierte Formate, und semantische Key-Value-Pair-Extraction über diverse Dokumentlayouts hinweg. Das Modell gibt es als LoRA-Adapter auf Basis von Granite 4.0 Micro – eine modulare Architektur, die Vision und Language trennt und Fallbacks auf reinen Text erlaubt.&lt;/p></description></item><item><title>VAKRA: Enterprise-Agent-Benchmark mit echten APIs</title><link>https://chaosnode.de/models/vakra-agent-benchmark/</link><pubDate>Sun, 26 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/vakra-agent-benchmark/</guid><description>&lt;p>&lt;strong>VAKRA&lt;/strong> von IBM Research ist ein tool-gegroundetes, ausführbares Benchmark, das misst, wie gut KI-Agenten in unternehmensähnlichen Umgebungen denken und handeln können. Im Gegensatz zu traditionellen Benchmarks, die isolierte Fähigkeiten testen, misst VAKRA &lt;em>kompositionelle Überlegungen über APIs und Dokumente&lt;/em> und nutzt vollständige Ausführungstraces.&lt;/p>
&lt;h2 id="die-architektur-hinter-vakra">Die Architektur hinter VAKRA&lt;/h2>
&lt;p>Das Benchmark stellt eine ausführbare Umgebung bereit, in der Agenten mit über &lt;strong>8.000+ lokal gehosteten APIs&lt;/strong> interagieren, unterstützt durch echte Datenbanken, die &lt;strong>62 Domänen&lt;/strong> abdecken, sowie domänenausgerichtete Dokumentensammlungen. Aufgaben können &lt;strong>3-7 stufige Reasoning-Ketten&lt;/strong> erfordern, die strukturierte API-Interaktion mit unstrukturierter Abfrage unter natürlichsprachlichen Tool-Use-Bedingungen kombinieren.&lt;/p></description></item><item><title>DeepSeek-V4: Millionen-Token-Kontext für Agenten</title><link>https://chaosnode.de/models/deepseek-v4-kv-cache/</link><pubDate>Sat, 25 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/deepseek-v4-kv-cache/</guid><description>&lt;p>DeepSeek hat V4 veröffentlicht. Zwei MoE-Checkpoints sind verfügbar: DeepSeek-V4-Pro mit 1.6T Parametern und DeepSeek-V4-Flash mit 284B Parametern. Beide bieten ein 1M-Token-Kontextfenster.&lt;/p>
&lt;h2 id="die-innovation">Die Innovation&lt;/h2>
&lt;p>Die eigentliche Leistung ist nicht der Benchmark-Score – die konkurrieren mit anderen Frontier-Modellen – sondern die effiziente Langkontext-Inferenz. DeepSeek V4 ist explizit für agentische Workloads konstruiert, die heute noch an bekannten Problemen scheitern.&lt;/p>
&lt;h2 id="das-kv-cache-problem">Das KV-Cache-Problem&lt;/h2>
&lt;p>Ein 1M-Kontextfenster ist Speicherkapazität, nicht Performance. Agenten, die lange Tool-Use-Trajektorien durchlaufen, benötigen effiziente Attention. DeepSeek-V4-Pro braucht nur 27% der Inferenz-FLOPs und 10% des KV-Cache im Vergleich zu V3.2. V4-Flash erreicht sogar 10% FLOPs und 7% KV-Cache.&lt;/p></description></item><item><title>Gemini 3.1 Flash TTS: Expressive Sprachsynthese trifft Präzision</title><link>https://chaosnode.de/models/gemini-31-flash-tts/</link><pubDate>Sat, 25 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/gemini-31-flash-tts/</guid><description>&lt;h2 id="sprachsynthese-mit-regisseur-stuhl">Sprachsynthese mit Regisseur-Stuhl&lt;/h2>
&lt;p>Text-to-Speech war lange eine Black Box: Du gibst Text ein, bekommst Audio. Feinsteuerung? Fehlanzeige. Gemini 3.1 Flash TTS ändert das grundlegend.&lt;/p>
&lt;p>Google nennt es &lt;strong>Audio Tags&lt;/strong> – ein intuitives System, um Sprachausgabe mit natürlicher Sprache zu steuern. Stell dir vor, du bist Regisseur: Du gibst Szenenanweisungen, definierst die Umgebung, sagst Akustikern, wie sie sprechen sollen. Alles direkt im Textinput.&lt;/p>
&lt;h2 id="die-features-im-detail">Die Features im Detail&lt;/h2>
&lt;p>&lt;strong>Szenen-Regie&lt;/strong>: Setze die Bühne, definiere die Umgebung, gib spezifische Dialoganweisungen. Charaktere bleiben &amp;ldquo;in-role&amp;rdquo; und reagieren natürlich über mehrere Dialogrunden.&lt;/p></description></item><item><title>Googles Veo 3.1 Lite: Kostengünstige Video-Generierung für Entwickler</title><link>https://chaosnode.de/models/veo-31-lite-google/</link><pubDate>Sat, 25 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/veo-31-lite-google/</guid><description>&lt;p>Google hat Veo 3.1 Lite veröffentlicht, das kostengünstigste Modell der Veo-3.1-Familie. Entwickler können nun hochvolumige Videoanwendungen zu weniger als 50% der Kosten von Veo 3.1 Fast erstellen.&lt;/p>
&lt;h2 id="das-modell">Das Modell&lt;/h2>
&lt;p>Veo 3.1 Lite bietet Text-zu-Video und Bild-zu-Video Generierung. Unterstützt werden sowohl Landschafts- (16:9) als auch Hochformat-Videos (9:16) in 720p und 1080p Auflösung. Die Videolänge ist anpassbar zwischen 4, 6 und 8 Sekunden, wobei die Kosten entsprechend variieren.&lt;/p>
&lt;h2 id="preisstruktur">Preisstruktur&lt;/h2>
&lt;p>Das Modell positioniert sich als Einsteigeroption für Video-Generierung. Die Kosten liegen unter der Hälfte von Veo 3.1 Fast bei gleicher Geschwindigkeit. Ab dem 7. April werden zusätzlich die Preise für Veo 3.1 Fast gesenkt.&lt;/p></description></item><item><title>DeepSeek-V4-Flash: 13B aktivierte Parameter für lokale KI</title><link>https://chaosnode.de/models/deepseek-v4-flash-lightweight/</link><pubDate>Fri, 24 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/deepseek-v4-flash-lightweight/</guid><description>&lt;h2 id="moe-effizienz-für-den-massenmarkt">MoE-Effizienz für den Massenmarkt&lt;/h2>
&lt;p>Neben dem Pro-Modell bringt DeepSeek mit V4-Flash eine kompaktere Variante, die sich an Entwickler mit begrenzter Hardware richtet. Mit 284B Gesamt-Parametern aber nur 13B aktivierten Parametern pro Inference-Durchlauf ist das Modell &lt;strong>deutlich ressourcenschonender&lt;/strong> – bei trotzdem starken Reasoning-Fähigkeiten.&lt;/p>
&lt;p>Das Modell nutzt die gleiche Hybrid Attention Architecture wie der Pro-Bruder, erreicht aber bei größeren Denk-Budgets ähnliche Reasoning-Performance. Der Trade-off: Bei reinen Wissens-Aufgaben und komplexen Agenten-Workflows hinkt es natürlicherweise hinterher.&lt;/p></description></item><item><title>DeepSeek-V4: Millionen-Token-Kontext终于 nutzbar für Agenten</title><link>https://chaosnode.de/models/deepseek-v4-agents/</link><pubDate>Fri, 24 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/deepseek-v4-agents/</guid><description>&lt;h2 id="nicht-die-benchmarks-zählen--die-effizienz">Nicht die Benchmarks zählen – die Effizienz&lt;/h2>
&lt;p>DeepSeek hat V4 veröffentlicht: zwei MoE-Modelle (DeepSeek-V4-Pro mit 1.6T/49B und DeepSeek-V4-Flash mit 284B/13B), beide mit 1 Million Token Kontext. Die Benchmarks sind kompetitiv, aber nicht SOTA. Das ist aber nicht der Punkt.&lt;/p>
&lt;p>&lt;strong>Das echte Problem:&lt;/strong> Agenten scheitern vorhersehbar. Das Modell stoppt mid-task. Der Trace sprengt das Context-Budget. Der KV-Cache füllt die GPU. Tool-Call-Roundtrips degradieren nach Hunderten von Befehlen. V4 wurde gebaut, um diese bekannten Failures zu fixen.&lt;/p></description></item><item><title>Gemma 4 VLA auf Jetson Orin Nano: Sprachgesteuerte Vision auf 8GB</title><link>https://chaosnode.de/models/gemma4-vla-jetson/</link><pubDate>Thu, 23 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/gemma4-vla-jetson/</guid><description>&lt;h2 id="ein-vla-der-mitdenkt">Ein VLA, der mitdenkt&lt;/h2>
&lt;p>Sprich mit Gemma 4, und sie entscheidet selbstständig, ob sie durch die Webcam schauen muss, um deine Frage zu beantworten. Keine Keyword-Trigger, keine hardcoded Logik – pures Modell-Reasoning.&lt;/p>
&lt;p>&lt;strong>Der Pipeline:&lt;/strong>&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-fallback" data-lang="fallback">&lt;span style="display:flex;">&lt;span>Du sprichst → Parakeet STT → Gemma 4 → [Webcam wenn nötig] → Kokoro TTS → Speaker
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Auf einem NVIDIA Jetson Orin Nano Super mit 8GB RAM. Kein Cloud-Call, alles lokal.&lt;/p>
&lt;p>&lt;strong>Besonderheit:&lt;/strong> Das Modell beschreibt nicht einfach das Bild – es beantwortet deine Frage mit dem visuellen Kontext. Fragst du &amp;ldquo;Was liegt auf dem Tisch?&amp;rdquo;, entscheidet Gemma selbst, einen Snapshot zu machen, interpretiert ihn und antwortet.&lt;/p></description></item><item><title>ChatGPT Images 2.0 – OpenAI hebt nach</title><link>https://chaosnode.de/models/chatgpt-images-2-announce/</link><pubDate>Wed, 22 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/chatgpt-images-2-announce/</guid><description>&lt;h2 id="besser-spät-als-nie">Besser spät als nie&lt;/h2>
&lt;p>OpenAI kündigt ChatGPT Images 2.0 an. Nach Monaten, in denen Midjourney, Flux und Stable Diffusion die Bildgenerierung dominierten, zieht OpenAI nach.&lt;/p>
&lt;p>&lt;strong>Was wir wissen (HN-Infos):&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>Direkt in ChatGPT integriert&lt;/li>
&lt;li>Höhere Qualität als DALL-E 3&lt;/li>
&lt;li>Bessere Text-Rendering im Bild&lt;/li>
&lt;li>Konsistente Stile über mehrere Bilder&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>Der Kontext:&lt;/strong> DALL-E 3 war solide, aber hinter der Konkurrenz. Text im Bild? Mist. Konsistente Charaktere? Glücksspiel. Midjourney hatte v6, Flux lief lokal, OpenAI hatte&amp;hellip; DALL-E mit Cartoon-Vibes.&lt;/p></description></item><item><title>Gemma 4: Multimodal KI läuft auf dem Handy</title><link>https://chaosnode.de/models/gemma4-multimodal-on-device/</link><pubDate>Wed, 22 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/gemma4-multimodal-on-device/</guid><description>&lt;h2 id="google-deepmind-öffnet-die-toolbox">Google DeepMind öffnet die Toolbox&lt;/h2>
&lt;p>Nach Gemma 1, 2 und 3 ist jetzt Version 4 da – und die macht einen gewaltigen Sprung. Die neue Modell-Familie von Google DeepMind ist multimodal, für Endgeräte optimiert und kommt in vier Größen.&lt;/p>
&lt;p>&lt;strong>Was neu ist:&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>Audio-Support&lt;/strong> bei den kleinen Modellen (E2B, E4B)&lt;/li>
&lt;li>&lt;strong>Variable Aspect Ratios&lt;/strong> für Bilder – Flexibilität statt Starres Format&lt;/li>
&lt;li>&lt;strong>Lange Kontexte&lt;/strong> – bis zu 128k Tokens&lt;/li>
&lt;li>&lt;strong>Apache 2.0 Lizenz&lt;/strong> – wirklich offen, nicht nur Marketing-Sprech&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>Die Größen:&lt;/strong>&lt;/p></description></item><item><title>Qwen3.6-27B: Top-Tier Coding ohne MoE-Overhead</title><link>https://chaosnode.de/models/qwen36-27b-coding-flagship/</link><pubDate>Wed, 22 Apr 2026 00:00:00 +0000</pubDate><guid>https://chaosnode.de/models/qwen36-27b-coding-flagship/</guid><description>&lt;h2 id="größe-ist-nicht-alles">Größe ist nicht alles&lt;/h2>
&lt;p>Qwen3.6-27B beweist es: 27 Milliarden Parameter reichen für Flagship-Level Coding. Das neue Dense-Modell von Alibaba übertrifft seinen Vorgänger Qwen3.5-397B-A17B – ein MoE-Riese mit 397B Gesamt-Parametern – in allen Coding-Benchmarks.&lt;/p>
&lt;p>&lt;strong>Die Zahlen:&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>SWE-bench Verified:&lt;/strong> 77.2 (vs 76.2 vom MoE-Gigant)&lt;/li>
&lt;li>&lt;strong>SWE-bench Pro:&lt;/strong> 53.5 vs 50.9&lt;/li>
&lt;li>&lt;strong>Terminal-Bench 2.0:&lt;/strong> 59.3 vs 52.5&lt;/li>
&lt;li>&lt;strong>SkillsBench:&lt;/strong> 48.2 vs 30.0&lt;/li>
&lt;/ul>
&lt;p>&lt;strong>Warum das wichtig ist:&lt;/strong> MoE-Modelle (Mixture of Experts) sind schwer zu deployen. Routing-Komplexität, Memory-Fragmentierung, spezielle Inferenz-Stacks. Dense-Modelle wie Qwen3.6-27B laufen auf Standard-Setups – llama.cpp, vLLM, MLX.&lt;/p></description></item></channel></rss>