Article

MiMo-V2.5-Pro-UltraSpeed: 1T-Modell bricht 1000 TPS-Barriere

Xiaomi MiMo LLM 1T Parameters Inference Speed TileRT

Xiaomi bricht erstmals die 1000 Tokens/Sekunde-Barriere mit einem 1-Billionen-Parameter-Modell. MiMo-V2.5-Pro-UltraSpeed, entwickelt in Zusammenarbeit mit TileRT, erreicht Generation-Geschwindigkeiten bis zu 1200 TPS auf Standard-GPUs – ein Paradigmenwechsel.

Speed = Intelligence

Bei 1T-Parameter-Skala ist 1000+ TPS mehr als eine schnellere Schreibmaschine. Es verändert grundlegend, wie AI funktioniert:

Erstens: Geschwindigkeit transmutiert zu Intelligenz. Früher gab es bei harten Problemen nur: “Warte auf eine Antwort und bete, dass sie korrekt ist.” In derselben Wall-Clock-Zeit kann das Modell nun Dutzende Reasoning-Pfade parallel laufen lassen (Best-of-N / Tree Search), automatisch verifizieren und selbst korrigieren – rohe Geschwindigkeit generiert Gedankentiefe.

Zweitens: Coding Agents entfesselt. Vorher: Entwickler warten schmerzhaft vor Bildschirmen, aufgehalten durch Inference-Latenz. Bei 1000 TPS durchläuft Code-Generierung und Produktions-Effizienz eine Paradigmen-Beschleunigung.

Drittens: Real-Time Decision Loops. Millisekunden-Level “Think-Respond”-Zyklen erlauben 1T-Flagship-Modellen den Eintritt in zeitkritische Szenarien:

  • Hochfrequenter Quantitative Trading
  • Instant Anti-Fraud Interception
  • Intelligent Bidding
  • Real-Time Interaktiver Dialog
  • Chirurgische Assistenz und medizinische Bildanalyse

Im OP gibt jede Sekunde, die AI bei Läsions-Analyse und Risiko-Prognose spart, dem Chirurgen einen Freiheitsgrad mehr. AI-Geschwindigkeit wird zum Chip im Rennen gegen den Tod.

Model-System Codesign statt Custom Hardware

1000+ TPS mit einem 1T-Flagship zu erreichen, ist nicht die Breakthrough einer einzelnen Technik – es ist das Produkt von extremer Codesign zwischen MiMo-Modell-Team und TileRT-System-Team.

Industrie-Ansätze für ähnliche Speeds (Cerebras Wafer-Scale Integration, Groqs reiner On-Chip-SRAM) setzen auf spezialisierte Hardware. Xiaomi wählte einen anderen Pfad:

Extreme Speed auf Standard-GPUs durch Model-System Codesign.

Modell-Seite:

  • FP4-Quantisierung – Zielt auf den Bandwidth-Flaschenhals von Standard-Hardware, drastisch reduzierter Model-Size und Memory-Access-Overhead
  • DFlash – Effiziente Speculative Decoding Methode basierend auf Block-Level Masked Parallel Prediction, erhöht massiv die akzeptierte Token-Länge pro Verification-Step

System-Seite:

TileRT adaptiert perfekt an die dynamischen Charakteristika dieser Algorithmen mit maßgeschneiderter Compilation Engine und Compute Kernels, optimiert für die neuartige Quantisierungs- und Speculative Decoding Pipeline.

Verfügbarkeit

Zeitraum: 9. – 23. Juni 2026 (Beijing Time)

Preis: 3× MiMo-V2.5-Pro-Kosten, aber ca. 10× Generation Speed

  • API Access: platform.xiaomimimo.com/ultraspeed (Antragsbasiert)
  • Chat Trial: ultraspeed.xiaomimimo.com (10 Sessions/Tag, 30 Min/Session, 5 Min Idle-Timeout)

Trial-Slots limitiert – Priorisierung für Unternehmen und professionelle Entwickler mit echten Business-Needs.

Quelle: Xiaomi MiMo Blog