Default
Door Remote - 08 Jun 2026
In het kort
Xiaomi en inferentiepartner TileRT hebben 1.000 tokens per seconde gebroken op een model met 1 biljoen parameters, een primeur op die schaal, met behulp van een standaard 8-GPU commodity-knooppunt – geen aangepaste chips.
De snelheid komt van FP4-kwantisering op de expertlagen van het model en speculatieve decodering van DFlash, die een volledig blok tokens in één keer voorstelt in plaats van één voor één.
Een beperkte API-proef loopt van 9 juni tot en met 23 juni, geprijsd tegen 3× standaard MiMo-tarieven voor ongeveer 10× de generatiesnelheid.
De meeste mensen kennen Xiaomi als het Chinese telefoonmerk. Degene die goedkope elektrische scooters en luchtreinigers maakt. Niet bepaald het bedrijf waarvan je zou verwachten dat het op maandagochtend een groot snelheidsrecord voor AI-gevolgtrekkingen zou breken.
En toch. Xiaomi heeft zojuist MiMo-V2.5-Pro-UltraSpeed uitgebracht, een serveermodus voor zijn vlaggenschip met biljoen parameters die meer dan 1.000 tokens per seconde haalt, met een piek van bijna 1.200 in demo's.
Parameters zijn de interne numerieke gewichten die bepalen hoe een model denkt: hoe meer je hebt, hoe complexer de patronen die het kan herkennen. Tokens zijn de stukjes tekst die het model leest en schrijft, gemiddeld ongeveer driekwart van een woord.
Xiaomi deed het op een enkel commodity-knooppunt met 8 GPU's. Standaard hardware, geen aangepaste chips. Dat verandert de berekening voor wie dit soort snelheid daadwerkelijk in de productie kan inzetten.
Om dat getal in menselijke termen uit te drukken: volgens Artificial Analysis ligt GPT-5.5 – waar de meeste ChatGPT-gebruikers daadwerkelijk mee praten – op 68. Claude Opus 4.6 belandt rond de 71 met het lagere model, Haiku, met 98 tokens per seconde. Gemini Flash haalt 192 tokens per seconde. MiMo-V2.5-Pro-UltraSpeed doet 1.000, op een model dat overeenkomt met Opus op het gebied van coderingsbenchmarks.
Cerebras en Groq hebben hele bedrijven rond dit probleem opgebouwd. Cerebras ontwierp een chip op wafer-schaal ter grootte van een bord, met 44 GB on-chip geheugen om het bandbreedteknelpunt te elimineren dat GPU-gevolgtrekking vertraagt. Het haalde 969 tokens per seconde op Meta's Llama 3.1 405B – indrukwekkend, maar dat is een model met 405 miljard parameters, minder dan de helft zo groot als MiMo-V2.5-Pro. Groq's aangepaste Language Processing Unit-architectuur haalt ongeveer 300-750 tokens per seconde, afhankelijk van het model.
Geen van beide draait op hardware die je vanavond bij AWS kunt huren.
Xiaomi deed het op gewone GPU's, alleen via software: een combinatie van trucs op modelniveau en een speciaal gebouwde gevolgtrekkingsengine genaamd TileRT.
Wat gebeurt er eigenlijk onder de motorkapTwee technieken bepalen de snelheid. De eerste techniek heet FP4-kwantisering: in plaats van het model met volledige numerieke precisie van 8 of 16 bits uit te voeren, verkleint Xiaomi de expertlagen (die de meeste van de 1 biljoen parameters vormen) tot 4 bits. De geheugenvoetafdruk neemt af, de druk op de bandbreedte neemt af en de snelheid gaat omhoog. De vangst is meestal een kleine kwaliteitsvermindering. De oplossing van Xiaomi is chirurgisch: alleen de expertlagen worden gecomprimeerd, al het andere blijft op volledige precisie. Met deze aanpak wordt het kwaliteitsverlies beschreven als vrijwel nul.
De tweede is speculatieve decodering van DFlash. Bij normale speculatieve decodering raadt een klein conceptmodel de volgende paar tokens, waarna het grote model ze parallel verifieert. DFlash slaat het opeenvolgende opstellen volledig over: het vult een heel blok gemaskeerde posities in één enkele voorwaartse doorgang. Bij codeertaken accepteert het grote model gemiddeld 6,3 van de 8 voorgestelde tokens per verificatieronde. Dat zijn zes tokens die in één stap worden bevestigd in plaats van één.
TileRT verbindt het met elkaar. Het zorgt ervoor dat de gehele rekenpijplijn continu binnen de GPU blijft: geen lanceringsoverhead per operator, geen hiaten in de uitvoering.
Xiaomi noemt deze aanpak 'extreem model-systeem co-design', en de zin klopt: geen van beide technieken alleen haalt 1.000 tokens per seconde, maar de synergie tussen alle benaderingen wel.
MiMo-V2.5-Pro is een model op grensniveau. We hebben de lancering van V2.5 Pro in april besproken: deze komt overeen met Claude Opus op de meeste coderingsbenchmarks en draait op ongeveer $ 0,43 input / $ 0,87 output per miljoen tokens. Opus kost $5 input / $25 output per miljoen tokens.
UltraSpeed versnelt precies dat MiMo V2.5 Pro-model, geen uitgeklede versie.
Snel genoeg gevolgtrekkingen veranderen de manier waarop u een model kunt gebruiken. Je kunt tientallen redeneerpaden parallel lopen in plaats van op één antwoord te wachten. Fraudedetectie, het genereren van handelssignalen, real-time agentloops: deze hebben allemaal harde latentiebeperkingen waar 60 tokens per seconde niet aan kunnen voldoen. Met 1.000 tokens per seconde kunnen ze dat.
Xiaomi prijst de snelheid op 3 keer de standaard MiMo-V2.5-Pro-snelheid voor ongeveer 10 keer de output. De API-proefperiode loopt van 9 tot en met 23 juni en is applicatiegebaseerd, waarbij voorrang wordt gegeven aan zakelijke en professionele ontwikkelaars. Het FP4-DFlash-controlepunt is al open source op Hugging Face voor communitytests.
Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!
Xiaomi en inferentiepartner TileRT hebben 1.000 tokens per seconde gebroken op een model met 1 biljoen parameters, een primeur op die schaal, met behulp van een standaard 8-GPU commodity-knooppunt – geen aangepaste chips.
De snelheid komt van FP4-kwantisering op de expertlagen van het model en speculatieve decodering van DFlash, die een volledig blok tokens in één keer voorstelt in plaats van één voor één.
Een beperkte API-proef loopt van 9 juni tot en met 23 juni, geprijsd tegen 3× standaard MiMo-tarieven voor ongeveer 10× de generatiesnelheid.
De meeste mensen kennen Xiaomi als het Chinese telefoonmerk. Degene die goedkope elektrische scooters en luchtreinigers maakt. Niet bepaald het bedrijf waarvan je zou verwachten dat het op maandagochtend een groot snelheidsrecord voor AI-gevolgtrekkingen zou breken.
En toch. Xiaomi heeft zojuist MiMo-V2.5-Pro-UltraSpeed uitgebracht, een serveermodus voor zijn vlaggenschip met biljoen parameters die meer dan 1.000 tokens per seconde haalt, met een piek van bijna 1.200 in demo's.
Parameters zijn de interne numerieke gewichten die bepalen hoe een model denkt: hoe meer je hebt, hoe complexer de patronen die het kan herkennen. Tokens zijn de stukjes tekst die het model leest en schrijft, gemiddeld ongeveer driekwart van een woord.
Xiaomi deed het op een enkel commodity-knooppunt met 8 GPU's. Standaard hardware, geen aangepaste chips. Dat verandert de berekening voor wie dit soort snelheid daadwerkelijk in de productie kan inzetten.
Om dat getal in menselijke termen uit te drukken: volgens Artificial Analysis ligt GPT-5.5 – waar de meeste ChatGPT-gebruikers daadwerkelijk mee praten – op 68. Claude Opus 4.6 belandt rond de 71 met het lagere model, Haiku, met 98 tokens per seconde. Gemini Flash haalt 192 tokens per seconde. MiMo-V2.5-Pro-UltraSpeed doet 1.000, op een model dat overeenkomt met Opus op het gebied van coderingsbenchmarks.
Cerebras en Groq hebben hele bedrijven rond dit probleem opgebouwd. Cerebras ontwierp een chip op wafer-schaal ter grootte van een bord, met 44 GB on-chip geheugen om het bandbreedteknelpunt te elimineren dat GPU-gevolgtrekking vertraagt. Het haalde 969 tokens per seconde op Meta's Llama 3.1 405B – indrukwekkend, maar dat is een model met 405 miljard parameters, minder dan de helft zo groot als MiMo-V2.5-Pro. Groq's aangepaste Language Processing Unit-architectuur haalt ongeveer 300-750 tokens per seconde, afhankelijk van het model.
Geen van beide draait op hardware die je vanavond bij AWS kunt huren.
Xiaomi deed het op gewone GPU's, alleen via software: een combinatie van trucs op modelniveau en een speciaal gebouwde gevolgtrekkingsengine genaamd TileRT.
Wat gebeurt er eigenlijk onder de motorkapTwee technieken bepalen de snelheid. De eerste techniek heet FP4-kwantisering: in plaats van het model met volledige numerieke precisie van 8 of 16 bits uit te voeren, verkleint Xiaomi de expertlagen (die de meeste van de 1 biljoen parameters vormen) tot 4 bits. De geheugenvoetafdruk neemt af, de druk op de bandbreedte neemt af en de snelheid gaat omhoog. De vangst is meestal een kleine kwaliteitsvermindering. De oplossing van Xiaomi is chirurgisch: alleen de expertlagen worden gecomprimeerd, al het andere blijft op volledige precisie. Met deze aanpak wordt het kwaliteitsverlies beschreven als vrijwel nul.
De tweede is speculatieve decodering van DFlash. Bij normale speculatieve decodering raadt een klein conceptmodel de volgende paar tokens, waarna het grote model ze parallel verifieert. DFlash slaat het opeenvolgende opstellen volledig over: het vult een heel blok gemaskeerde posities in één enkele voorwaartse doorgang. Bij codeertaken accepteert het grote model gemiddeld 6,3 van de 8 voorgestelde tokens per verificatieronde. Dat zijn zes tokens die in één stap worden bevestigd in plaats van één.
TileRT verbindt het met elkaar. Het zorgt ervoor dat de gehele rekenpijplijn continu binnen de GPU blijft: geen lanceringsoverhead per operator, geen hiaten in de uitvoering.
Xiaomi noemt deze aanpak 'extreem model-systeem co-design', en de zin klopt: geen van beide technieken alleen haalt 1.000 tokens per seconde, maar de synergie tussen alle benaderingen wel.
MiMo-V2.5-Pro is een model op grensniveau. We hebben de lancering van V2.5 Pro in april besproken: deze komt overeen met Claude Opus op de meeste coderingsbenchmarks en draait op ongeveer $ 0,43 input / $ 0,87 output per miljoen tokens. Opus kost $5 input / $25 output per miljoen tokens.
UltraSpeed versnelt precies dat MiMo V2.5 Pro-model, geen uitgeklede versie.
Snel genoeg gevolgtrekkingen veranderen de manier waarop u een model kunt gebruiken. Je kunt tientallen redeneerpaden parallel lopen in plaats van op één antwoord te wachten. Fraudedetectie, het genereren van handelssignalen, real-time agentloops: deze hebben allemaal harde latentiebeperkingen waar 60 tokens per seconde niet aan kunnen voldoen. Met 1.000 tokens per seconde kunnen ze dat.
Xiaomi prijst de snelheid op 3 keer de standaard MiMo-V2.5-Pro-snelheid voor ongeveer 10 keer de output. De API-proefperiode loopt van 9 tot en met 23 juni en is applicatiegebaseerd, waarbij voorrang wordt gegeven aan zakelijke en professionele ontwikkelaars. Het FP4-DFlash-controlepunt is al open source op Hugging Face voor communitytests.
Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

