Models
Google KI-Updates im Mai 2026: Gemini 3.5 und Omni
Der Mai 2026 war vollgepackt mit KI-Ankündigungen von Google. Die Google I/O markierte den Eintritt in die “Agentic Gemini Ära” mit Gemini 3.5 und Gemini Omni. Gemini …
EVA-Bench Data 2.0: Agenten-Benchmark mit 213 Szenarien
ServiceNow AI veröffentlicht EVA-Bench Data 2.0, ein umfassender Benchmark für AI-Agenten mit 3 Domains, 121 Tools, 213 Szenarien – realistische Multi-Step-Workflows zur Evaluation …
Gemma 4 12B: Encoder-freies multimodales Modell für Laptops
Google DeepMind veröffentlicht Gemma 4 12B, ein multimodales Modell mit encoder-freier Unified-Transformer-Architektur, das auf Laptops mit nur 16GB VRAM/Unified Memory läuft. …
hf CLI: 6x weniger Tokens für Coding Agents
Hugging Face überarbeitet die hf CLI für Coding Agents. Das Ergebnis: Bei komplexen Multi-Step-Tasks verbrauchen Agents mit CLI 6x weniger Tokens als curl/SDK-Baselines. …
KVarN: Native vLLM KV-Cache Quantisierung mit 3-5x mehr Kontext
Huawei veröffentlicht KVarN, einen nativen KV-Cache-Quantisierungs-Backend für vLLM, der 3-5x mehr KV-Cache-Kapazität bietet – bei FP16-Genauigkeit und sogar höherem Durchsatz als …
Nemotron 3.5 ASR: Multilingual Speech-to-Text für 40 Sprachen
NVIDIA veröffentlicht Nemotron 3.5 ASR streaming multilingual, ein 600M-Parameter Speech-to-Text-Modell, das 40 Language-Locales aus einem einzigen Checkpoint in Echtzeit …
DPO Beyond Chatbots: Wenn Modelle aus Fehlern lernen
Direct Preference Optimization (DPO) wird meistens für Chat-Alignment eingesetzt – aber DharmaAI zeigt mit DharmaOCR, dass DPO auch für strukturierte OCR-Tasks funktioniert. Der …
MCP Tools für Reachy Mini: Robot-Fähigkeiten via Hugging Face Spaces
Der Reachy Mini Roboter kann jetzt Tools nutzen, die in öffentlichen Hugging Face Spaces gehostet werden – aufgerufen via MCP (Model Context Protocol). Statt Code lokal zu …
MAI-Code-1-Flash: Microsofts neues Coding-Modell
Microsoft führt MAI-Code-1-Flash ein – ein effizientes Coding-Modell, das speziell für GitHub Copilot optimiert ist. Das Besondere: Es wurde direkt mit den Copilot-Harnesses aus …
Holo3.1: Schnelle lokale Computer-Use-Agenten
H Company hat Holo3.1 veröffentlicht, eine Familie von Computer-Use-Modellen, die sich durch verbesserte Robustheit über verschiedene Umgebungen hinweg auszeichnet. Neu sind …
Delta Weight Sync: Wie TRL die Bandbreite beim asynchronen RL reduziert
Asynchrones Reinforcement Learning mit großen Sprachmodellen steht vor einem fundamentalen Problem: Bei jedem Trainingsschritt müssen aktualisierte Gewichte übertragen werden. …
Gemini Omni und Gemini 3.5 Flash: Googles neue KI-Generation
Auf der Google I/O 2026 präsentierte das Unternehmen zwei bahnbrechende KI-Modelle, die unterschiedliche Schwerpunkte setzen. Kurzbeschreibung Google führt mit Gemini Omni und 3.5 …
ITBench-AA: Enterprise-IT-Benchmark zeigt Schwächen aller KI-Modelle
Künstliche Intelligenz revolutioniert Unternehmen, aber wie gut schlagen sich KI-Agenten bei echten IT-Aufgaben? Ein neuer Benchmark liefert überraschende Ergebnisse. …
Mellum2: JetBains effizientes Mixture-of-Experts Modell
Mellum2 ist ein neuer Open-Source-Sprachmodell von JetBrains, der sich durch eine innovative Mixture-of-Experts-Architektur auszeichnet. Mit insgesamt 12 Milliarden Parametern …
PyTorch Profiler verstehen: Der erste Schritt zur Optimierung
Wer KI-Modelle optimieren will, muss sie zuerst verstehen lernen. HuggingFace veröffentlichte eine mehrteilige Serie über PyTorch Profiling und beginnt mit den Grundlagen. …
Reachy Mini: Open-Source-Robotik goes lokal
Open-Source-Robotik erreicht einen neuen Meilenstein: Reachy Mini kann vollständig lokal betrieben werden. Kurzbeschreibung HuggingFace zeigt, wie Reachy Mini ohne …
Harness, Scaffold und Agents – Eine Begriffsklaerung
Kurzfassung In der schnelllebigen Welt der KI-Agenten verschwimmen die Begriffe. Hugging Face liefert ein praxisorientiertes Glossar fuer Harness, Scaffold, Context Engineering und …
NVIDIA Nemotron Diffusion – Token-Parallel statt Autoregressiv
Kurzfassung Autoregressive Modelle generieren Token fuer Token – ein Flaschenhals. NVIDIAs Nemotron-Labs Diffusion bricht dieses Muster und generiert mehrere Token parallel mit …
Rotary GPU: Lokale Ausfuehrung grosser MoE-Modelle
Rotary GPU ist ein innovativer Ansatz zur lokalen Ausführung großer Mixture-of-Experts (MoE) Modelle unter begrenzten GPU-Ressourcen. Die Forschung stellt nicht die Skalierung von …
Gemini 3.5 Flash: Googles neue Frontier für Agenten und Coding
Die agentische Gemini-Ära beginnt Auf der Google I/O 2026 kündigte Sundar Pichai die Gemini 3.5-Modellfamilie an. Der Start erfolgt mit Gemini 3.5 Flash – einem Modell, das …
Nemotron-Labs Diffusion Sprachmodelle für schnelle Textgeneration
Traditionelle Large Language Models generieren Text autoregressiv. Nvidias Nemotron-Labs zeigt einen radikal anderen Ansatz: Diffusionsmodelle für Text. Was sind Diffusion Language …
TRL Hub Bucket - Billionen Parameter effizient synchronisieren
Das Training von Modellen mit einer Billion Parametern stellt infrastrukturelle Herausforderungen. TRL und Hugging Face zeigen eine elegante Loesung. Das Problem mit riesigen …
Granite 4.1: IBMs Antwort auf effiziente LLMs
IBM hat mit Granite 4.1 eine Familie von Sprachmodellen veröffentlicht, die beweist, dass Qualität nicht zwingend massive Parameterzahlen erfordert. Die Modelle kommen in drei …
KI-Agenten-Wörterbuch: Die Begriffe, die zählen
Die Welt der KI-Agenten entwickelt sich schneller als ihr gemeinsames Vokabular. Begriffe verschwimmen, werden in verschiedenen Kontexten unterschiedlich verwendet oder …
PyTorch Profiler verstehen: Performance-Engpässe beim Machine-Learning-Training aufdecken
Kurzbeschreibung Was Sie nicht profilieren können, können Sie nicht optimieren. Dieser Artikel führt in die Grundlagen von torch.profiler ein und zeigt, wie Entwickler Engpässe im …
Ettin Reranker: State-of-the-Art Reranking
Tom Aarsen hat auf dem Hugging Face Blog die Ettin Reranker-Familie vorgestellt – sechs neue Cross-Encoder-Reranker, die State-of-the-Art-Performance bei ihren jeweiligen …
Gemini 3.5: Googles Antwort auf Coding-Agenten
Google hat auf der I/O 2026 die neue Gemini-3.5-Modellfamilie vorgestellt. Der Fokus liegt diesmal nicht auf roher Intelligenz, sondern auf Action – also der Fähigkeit, komplexe …
KI-Agenten verstehen: Ein Glossar der wichtigsten Begriffe
Die Sprache rund um KI-Agenten entwickelt sich rasant, oft schneller als das gemeinsame Verständnis der Begriffe. HuggingFace hat nun ein Glossar veröffentlicht, das Licht ins …
Ollama: Von lokal zu Cloud – nahtlose LLM-Integration
Ollama hat sich als de-facto-Standard für lokale LLM-Entwicklung etabliert. Mit einem Befehl wie \ startet ein lokaler LLM-Server, perfekt für Entwicklung und Experimente. Jetzt …
Trillion-Parameter-Training: Delta Weight Sync in TRL
Asynchrones Reinforcement Learning hat ein skaliertes Problem: Jeder Trainingsschritt erfordert den Transfer des kompletten Modells an den Inference-Server. Bei 7B Parametern sind …
Agent-Glossar - Die Begriffe hinter Harness und Scaffold
Wenn sich ein Feld schnell entwickelt, hält das Vokabular oft mit dem gemeinsamen Verständnis nicht Schritt. Ein neuer Blogpost von HuggingFace versucht, Licht in die Begriffswelt …
DeepSeek-V4 mit Millionen-Token-Kontext für Agenten
DeepSeek hat mit V4 ein Model veröffentlicht, das einen Millionen-Token-Kontext nicht nur verspricht, sondern tatsächlich nutzbar macht. Die Architektur ist speziell für …
EAGLE 3.1 - Robusteres Speculative Decoding für vLLM
Ein gemeinsames Release der EAGLE-, vLLM- und TorchSpec-Teams bringt EAGLE 3.1 als bedeutendes Update für speculative Decoding-Algorithmen. Die neue Version adressiert ein …
Klartext für KI-Entwickler: Harness, Scaffold und die Begriffe, die man kennen muss
Warum dieser Glossar wichtig ist In der schnelllebigen Welt der KI-Agenten vermischen sich Begriffe, werden unterschiedlich verwendet oder verschwinden nach wenigen Monaten …
Google I/O 2026: Gemini 3.5 und die agentische Ära
Googles I/O 2026 brachte eine Flut an Ankündigungen: Gemini 3.5 mit agentischen Fähigkeiten, Gemini Omni, und ein neues AI Ultra Abonnement für 100 Dollar monatlich. Sundar Pichai …
DeepSeek V4-Pro: 75% Rabatt wird permanent
DeepSeek hat angekündigt, den 75% Rabatt auf sein Flaggschiff-Modell V4-Pro dauerhaft beizubehalten. Entwickler zahlen damit nur noch ein Viertel des ursprünglichen Preises - eine …
Gemini 3.5 Flash: Googles Antwort auf agentische KI-Workflows
Google DeepMind hat mit Gemini 3.5 eine neue Modellfamilie vorgestellt, die speziell für komplexe agentische Workflows entwickelt wurde. Der Fokus liegt nicht mehr allein auf …
Nemotron-Labs Diffusion: Textgenerierung mit Lichtgeschwindigkeit
NVIDIA präsentiert mit Nemotron-Labs Diffusion einen fundamental neuen Ansatz zur Textgenerierung. Statt Token für Token sequenziell zu erzeugen - wie bei herkömmlichen …
3B-Modell schlägt alle Frontier-APIs: Spezialisierung über Skalierung
Ein 3-Milliarden-Parameter-Modell übertrifft jede Frontier-API Für drei Jahre war die Enterprise-KI-Strategie stabil gewachsen: Die sicherste Wahl war meist das größte verfügbare …
Google I/O 2026 - Gemini 3.5 Flash und Omni
Google I/O 2026: Gemini 3.5 Flash und die Omni-Aera Die Google I/O 2026 stand ganz im Zeichen agentischer KI-Entwicklung. Mit Gemini 3.5 Flash und dem bahnbrechenden Gemini Omni …
NVIDIA Nemotron-Labs Diffusion: Textgenerierung mit Lichtgeschwindigkeit
Diffusion Language Models: Ein neues Paradigma für Textgenerierung Große Sprachmodelle waren seit Jahren autoregressiv – sie generieren Token für Token, wobei jeder neue Token von …
Open Agent Leaderboard: Endlich Agenten ganzheitlich vergleichen
Die meisten KI-Benchmarks fragen: Welches Modell erzielt die höchste Punktzahl? Doch bei Agenten ist das Modell nur ein Teil der Gleichung. Ein neuer Open-Source-Benchmark von IBM …
Spezialisierung schlägt Skalierung
Kurzbeschreibung Eine neue Studie von Dharma-AI belegt empirisch: Ein auf 3 Milliarden Parameter spezialisiertes Modell kann Frontier-APIs wie Claude Opus oder GPT-5 in …
Ettin Reranker: State-of-the-Art für Semantic Search
Sechs neue Reranker-Modelle Tom Aarsen von Hugging Face hat die Ettin Reranker-Familie veröffentlicht – sechs neue CrossEncoder-Reranker, die auf ModernBERT basieren und in ihren …
Qwen3.7-Max: Das neue Agent-Fundament
Qwen3.7-Max vorgestellt Alibabas Qwen-Team hat mit Qwen3.7-Max sein neuestes Modell für die Agenten-Ära präsentiert. Das proprietäre Modell wurde speziell für autonome …
Ettin Reranker: Sechs neue Modelle für semantische Suche
Hugging Face veröffentlicht mit der Ettin Reranker-Familie sechs neue Cross-Encoder-Modelle, die State-of-the-Art-Performance in ihren jeweiligen Größenklassen erreichen. Die …
Google Gemini 3.5: Frontier-Intelligenz trifft Handlungsfähigkeit
Auf der Google I/O 2026 wurde Gemini 3.5 vorgestellt – die neueste Modellfamilie, die frontier Intelligenz mit echter Handlungsfähigkeit kombiniert. Der Start der Serie beginnt mit …
Ettin Reranker: State-of-the-Art Reranking-Modelle von Hugging Face
Tom Aarsen veröffentlicht sechs neue CrossEncoder-Reranker in Sentence Transformers – State-of-the-Art bei ihren jeweiligen Modellgrößen. Die Ettin Reranker Familie Die neuen …
Asynchrones Continuous Batching - CPU und GPU parallel
Hugging Face erklärt, wie man CPU und GPU Arbeit entkoppelt, um die LLM-Inference massiv zu beschleunigen. Kurzbeschreibung Durch asynchrones Batching werden CPU-Vorbereitung und …
Ettin Reranker: Neue SOTA-Modelle für Semantische Suche
Sechs neue Reranker von 17M bis 1B Parametern Tom Aarsen hat sechs neue CrossEncoder-Reranker unter dem Namen Ettin veröffentlicht, basierend auf den ModernBERT-Encoding-Modellen. …
Open Agent Leaderboard - Agenten systematisch bewerten
IBM Research veröffentlicht einen offenen Benchmark für AI-Agenten. Nicht nur Modelle, sondern ganze Systeme. Kurzbeschreibung Der Open Agent Leaderboard bewertet vollständige …
JetBrains KI-Strategie 2026: Zwei Workflows, eine IDE
Klassische und KI-gestützte Entwicklung im Gleichgewicht JetBrains hat seine strategische Ausrichtung für 2026 skizziert und setzt dabei auf Koexistenz statt Ersatz. Das …
JetBrains KI-Strategie 2026: Zwei Workflows, eine IDE
Klassische und KI-gestützte Entwicklung im Gleichgewicht JetBrains hat seine strategische Ausrichtung für 2026 skizziert und setzt dabei auf Koexistenz statt Ersatz. Das …
Open Agent Leaderboard: IBM misst Agent-Systeme nicht nur Models
Warum Modelle allein nicht ausreichen IBM Research hat den Open Agent Leaderboard veröffentlicht. Der Kernsatz: “Wie gut ein AI-Agent funktioniert hängt davon ab wie er …
KI-gestütztes Google Finance erreicht Europa
Google bringt sein KI-gestütztes Google Finance nach Europa. Die überarbeitete Plattform bietet eine Reihe neuer Funktionen, die Finanzielle Analyse deutlich zugänglicher machen. …
SANA-WM: Open-Source-Weltmodell für minutenlange Videos
NVIDIA Labs hat mit SANA-WM ein effizientes 2,6-Milliarden-Parameter-Weltmodell veröffentlicht, das nativ für einminütige Videogeneration trainiert wurde. Das Besondere: Es läuft …
Asynchrones Continuous Batching maximiert GPU-Auslastung
Ein H200 kostet circa 5 Dollar pro Stunde. Das klingt günstig, aber nach einem Tag sind es bereits 120 Dollar. Wer Cloud-GPUs nutzt, will maximale Auslastung. Continuous Batching …
Claude lehrt Open-Source-Modelle CUDA-Kernel zu schreiben
Ein neuer Ansatz von HuggingFace demonstriert das “Upskilling” von Coding Agents: Ein Skill, mit dem Claude Opus komplexe CUDA-Kernel entwickelt und diese Faehigkeit …
SANA-WM: Open-Source World Model für 1-Minuten-Videos
NVIDIA Labs veröffentlicht SANA-WM, ein offenes World Model für Video-Generierung. Aus einem einzigen Startbild und einer Kamera-Trajektorie entstehen minutelange 720p-Videos - auf …
EMO: Emergente Modularität durch Mixture-of-Experts Pretraining
Allen AI veröffentlicht EMO, ein Mixture-of-Experts-Modell, das während des Pretrainings emergente modulare Struktur entwickelt — ohne menschlich definierte Domänen-Priors. Das …
Granite Embedding: Multilinguale Embeddings mit 32K Kontext
IBM Granite veröffentlicht zwei neue Apache 2.0 Embedding-Modelle: ein kompaktes 97M-Modell, das auf MTEB Multilingual Retrieval mit 60.3 den Spitzenplatz unter 100M Parametern …
IBMs Granite Embedding R2: Multilinguale Embeddings mit Apache 2.0
IBM veröffentlichte Granite Embedding Multilingual R2 auf HuggingFace – ein offenes Apache-2.0-Embedding-Modell mit 32K Kontext und bester Retrieval-Qualität unter den …
DeepSeek-V4: 1 Million Token Context endlich nutzbar
DeepSeek hat V4 veröffentlicht und die Benchmarks sind beeindruckend, aber nicht SOTA. Das ist aber gar nicht der Punkt. Die wahre Innovation liegt in der Architektur, die extrem …
Needle: Winziger 26M-KI für Tool-Aufrufe auf Mobilgeräten
Cactus Compute hat Needle veröffentlicht, ein Open-Source-Sprachmodell mit nur 26 Millionen Parametern, das speziell für Function-Calling auf Mobilgeräten optimiert ist. Das Modell …
Foundation Models auf AWS: Bausteine für Training und Inference
Amazon veröffentlicht einen umfassenden Leitfaden zur Infrastruktur für Foundation-Model-Training und -Inference auf AWS. Der Fokus liegt auf der Konvergenz von drei kritischen …
OpenAI veröffentlicht GPT OSS als Open-Source-Modellfamilie
GPT OSS ist der lang erwartete Open-Weights-Release von OpenAI, entwickelt für leistungsstarke Reasoning-, Agenten- und vielseitige Entwickler-Anwendungen. Die Modellfamilie …
DeepInfra: Kostengünstiger Inference-Provider auf Hugging Face
DeepInfra ist jetzt offizieller Inference-Provider auf Hugging Face. Das Platform bietet mit über 100 Modellen eine der kostengünstigsten Token-Preise der Branche und integriert …
vLLM V1: Korrektheit vor Korrekturen im RL-Training
ServiceNow veröffentlicht wichtige Erkenntnisse zu vLLM V1 im Kontext von Reinforcement Learning. Der Kernpunkt: Im RL-Training ist Korrektheit wichtiger als Post-Hoc-Korrekturen. …
Claude als User-Space IP-Stack: Ping in 45 Sekunden
Ein absurdes Experiment Adam Dunkels stellte sich die Frage: Wenn Claude Byte für Byte IP-Pakete liest und verarbeitet, wie schnell kann es auf einen Ping antworten? Die Antwort …
EMO: Mixture of Experts mit emergenter Modularität
EMO revolutioniert die Mixture-of-Experts-Architektur durch emergente Modularität: Anstatt Experten auf menschlich vordefinierte Domains zu beschränken, lernt das Modell …
vLLM V1: Weniger Drift bei RL-Training
Die Migration-Problematik Der Wechsel von vLLM V0 auf V1 ist kein einfaches Update, sondern ein fundamentaler Rewrite der Inference-Engine. Für Reinforcement Learning workloads wie …
IBM Granite 4.1: Dense LLMs mit 512K Context
IBM veröffentlicht Granite 4.1 – eine Familie von Dense-LLMs unter Apache 2.0 Lizenz, trainiert auf 15 Trillionen Tokens mit einem raffinierten Five-Stage-Training-Pipeline. …
Mixture-of-Experts mit emergenter Modularität: Allen AI veröffentlicht EMO
Emergente Expert-Spezialisierung ohne menschliche Labels Allen AI veröffentlicht EMO (Emergent Mixture of Experts), ein neues MoE-Modell, das modular Struktur direkt aus den Daten …
CyberSecQwen-4B: Spezialisiertes Sicherheitsmodell schlägt Cisco-8B-Baseline
Klein, lokal, leistungsstark Ein neue 4-Milliarden-Parameter-Modell beweist, dass spezialisierte Fine-Tunes größere Generalisten schlagen können. CyberSecQwen-4B wurde für …
EMO: Mixtur-of-Experts mit emergenter Modularität von Allen AI
Experten, die sich selbst organisieren Allen AI hat EMO veröffentlicht, ein Mixture-of-Experts-Modell, dessen modulare Struktur direkt aus den Trainingsdaten entsteht, ohne …
Subquadratic: 12 Millionen Token Kontext ohne quadratische Kosten
Die Context-Window-Revolution Die Aufmerksamkeitskosten bei Transformers skalieren quadratisch mit der Kontextlänge. Ein Start-up aus Miami behauptet nun, dieses fundamentale …
Granite 4.1: IBMs Enterprise-LLMs mit 512K Kontext
IBM veröffentlicht Granite 4.1: Dense Decoder-LLMs in 3B, 8B und 30B mit Apache-2.0-Lizenz und beeindruckenden Benchmarks. Kurzbeschreibung Die neue Granite-Familie nutzt ein …
vLLM V1 Migration: Korrektheit vor Korrekturen im RL-Training
ServiceNow dokumentiert die Herausforderungen bei der Migration von vLLM V0 zu V1 für Reinforcement Learning Training. Kurzbeschreibung Der Wechsel von vLLM V0 auf V1 zeigte …
Chinesisches Modell Kimi K2.6 überrascht im Coding-Wettbewerb
Ein unerwarteter Sieger Im laufenden AI Coding Contest hat das chinesische Modell Kimi K2.6 von Moonshot AI für eine Überraschung gesorgt: Es schlug Claude Opus 4.7, GPT-5.5 und …
KI-Evaluation wird zum neuen Compute-Engpass
Wenn Testen teurer wird als Training Eine neue Analyse von Hugging Face und der EvalEval Coalition zeigt eine Verschiebung im KI-Landschaft: Die Kosten für Modell-Evaluation …
VAKRA: Agenten unter der Lupe
IBM Research hat eine detaillierte Analyse der VAKRA-Benchmark veröffentlicht, die aufzeigt, wo aktuelle Sprachmodelle bei Tool-Nutzung und Reasoning scheitern. Kurzbeschreibung …
DeepInfra als neuer Inference-Provider auf Hugging Face
Hugging Face hat DeepInfra als neuen Inference-Provider in sein Ökosystem aufgenommen. DeepInfra ist eine serverlose KI-Inferenz-Plattform, die mit einem Katalog von über 100 …
IBMs Granite 4.1: Open-Source LLMs für Enterprise
IBM stellt Granite 4.1 vor - eine Familie von Dense-LLMs in drei Grössen (3B, 8B, 30B), alle unter Apache 2.0 Lizenz. Der 8B Instruct übertrifft den Vorgänger Granite 4.0-H-Small …
NVIDIA Nemotron 3 Nano Omni: Multimodal fuer Dokumente, Audio und Video
NVIDIA stellte Nemotron 3 Nano Omni vor, ein omni-modales Verstaendnismodell fuer Text, Bild, Video und Audio. Es erweitert die Nemotron-Produktlinie von einem reinen …
NVIDIA Nemotron 3 Nano Omni: Multimodal für Agenten
NVIDIA erweitert die Nemotron-Familie mit Nemotron 3 Nano Omni, einem omni-modalen Verständnismodell für Text, Bild, Video und Audio. Das Modell ist spezifisch für reale …
OpenAI Privacy Filter: Skalierbare Web-Apps mit PII-Erkennung
OpenAI hat seinen Privacy Filter auf Hugging Face veröffentlicht. Das 1,5 Milliarden Parameter-Modell mit 50 Millionen aktiven Parametern erkennt persönlich identifizierbare …
Wie Googles TPUs die moderne KI antreiben
Google hat ein neues Erklärvideo veröffentlicht, das die Funktionsweise der Tensor Processing Units (TPUs) illuminier – der maßgeschneiderten Chips, die hinter fast allen …
SWE-bench Verified verliert an Aussagekraft für Frontier-Modelle
SWE-bench Verified verliert an Aussagekraft für Frontier-Modelle Die Bewertungslandschaft für KI-Modelle verändert sich rasant. OpenAI hat bekanntgegeben, dass sie SWE-bench …
Granite 4.0 3B Vision: IBMs kompakter VLM für Enterprise-Dokumente
Spezialist statt Generalist Granite 4.0 3B Vision geht einen anderen Weg als die meisten Vision-Language-Modelle. Statt alles zu können, fokussiert sich das …
VAKRA: Enterprise-Agent-Benchmark mit echten APIs
VAKRA von IBM Research ist ein tool-gegroundetes, ausführbares Benchmark, das misst, wie gut KI-Agenten in unternehmensähnlichen Umgebungen denken und handeln können. Im Gegensatz …
DeepSeek-V4: Millionen-Token-Kontext für Agenten
DeepSeek hat V4 veröffentlicht. Zwei MoE-Checkpoints sind verfügbar: DeepSeek-V4-Pro mit 1.6T Parametern und DeepSeek-V4-Flash mit 284B Parametern. Beide bieten ein …
Gemini 3.1 Flash TTS: Expressive Sprachsynthese trifft Präzision
Sprachsynthese mit Regisseur-Stuhl Text-to-Speech war lange eine Black Box: Du gibst Text ein, bekommst Audio. Feinsteuerung? Fehlanzeige. Gemini 3.1 Flash TTS ändert das …
Googles Veo 3.1 Lite: Kostengünstige Video-Generierung für Entwickler
Google hat Veo 3.1 Lite veröffentlicht, das kostengünstigste Modell der Veo-3.1-Familie. Entwickler können nun hochvolumige Videoanwendungen zu weniger als 50% der Kosten von Veo …
DeepSeek-V4-Flash: 13B aktivierte Parameter für lokale KI
MoE-Effizienz für den Massenmarkt Neben dem Pro-Modell bringt DeepSeek mit V4-Flash eine kompaktere Variante, die sich an Entwickler mit begrenzter Hardware richtet. Mit 284B …
DeepSeek-V4: Millionen-Token-Kontext终于 nutzbar für Agenten
Nicht die Benchmarks zählen – die Effizienz DeepSeek hat V4 veröffentlicht: zwei MoE-Modelle (DeepSeek-V4-Pro mit 1.6T/49B und DeepSeek-V4-Flash mit 284B/13B), beide mit 1 Million …
Gemma 4 VLA auf Jetson Orin Nano: Sprachgesteuerte Vision auf 8GB
Ein VLA, der mitdenkt Sprich mit Gemma 4, und sie entscheidet selbstständig, ob sie durch die Webcam schauen muss, um deine Frage zu beantworten. Keine Keyword-Trigger, keine …
ChatGPT Images 2.0 – OpenAI hebt nach
Besser spät als nie OpenAI kündigt ChatGPT Images 2.0 an. Nach Monaten, in denen Midjourney, Flux und Stable Diffusion die Bildgenerierung dominierten, zieht OpenAI nach. Was wir …
Gemma 4: Multimodal KI läuft auf dem Handy
Google DeepMind öffnet die Toolbox Nach Gemma 1, 2 und 3 ist jetzt Version 4 da – und die macht einen gewaltigen Sprung. Die neue Modell-Familie von Google DeepMind ist multimodal, …
Qwen3.6-27B: Top-Tier Coding ohne MoE-Overhead
Größe ist nicht alles Qwen3.6-27B beweist es: 27 Milliarden Parameter reichen für Flagship-Level Coding. Das neue Dense-Modell von Alibaba übertrifft seinen Vorgänger …