Default
Door Remote - 29 Mar 2026
In het kort
Xiaomi’s MiMo-V2-Pro – een model met biljoen parameters dat kortstondig doorging als ‘DeepSeek V4’ – landt stilletjes als een AI-kandidaat van het hoogste niveau.
Het blinkt uit in coderen, creatief schrijven en agentische taken, terwijl het rivalen als Claude dramatisch ondermijnt wat betreft prijs.
Sterke redeneringen en uitvoerkwaliteit gaan gepaard met compromissen, waaronder wiskundige misstappen en soms een hoog tokenverbruik.
De meeste Amerikanen kennen Xiaomi – als ze dat al weten – als dat goedkope telefoonmerk uit China.
Dat is een aanzienlijke leesfout. Xiaomi is de op twee na grootste smartphonefabrikant ter wereld, na alleen Apple en Samsung, en levert in 2025 ongeveer 170 miljoen telefoons. Het maakt televisies, luchtreinigers, fitnesstrackers, elektrische scooters, kleding en nu auto's.
Xiaomi's SU7 Ultra vestigde vorig jaar het Nürburgring-record voor de snelste in massa geproduceerde elektrische auto en versloeg daarmee Rimac en Porsche. Het werkte onlangs samen met de Sei-blockchain om crypto-wallets vooraf te installeren op zijn apparaten in Europa, Latijns-Amerika en Zuidoost-Azië. De marktkapitalisatie van het bedrijf ligt rond de $137 miljard.
Dus als Xiaomi een AI-model laat vallen, moeten we misschien opletten.
Op 18 maart bracht de toegewijde AI-onderzoeksafdeling van het bedrijf stilletjes drie modellen tegelijk uit: MiMo-V2-Pro, MiMo-V2-Omni en een tekst-naar-spraak-model. Het eerste model van de nieuwe MiMo-generatie verscheen in december 2025, toen het bedrijf stilletjes MiMo-V2-Flash liet vallen – een capabel 309B mix-of-experts-model – en bijna niemand buiten de Chinese AI-gemeenschap er aandacht aan schonk. De westerse technische pers haalde grotendeels de schouders op.
Vervolgens verscheen op 11 maart een anoniem model met 1 biljoen parameters genaamd "Hunter Alpha" op OpenRouter, zonder enige toeschrijving van de ontwikkelaar. Het model klom naar de top van het klassement van OpenRouter, overtrof in totaal een biljoen tokens en veroorzaakte onmiddellijk wijdverbreide speculatie dat het de nog niet uitgebrachte V4 van DeepSeek was.
De verwachting voor dat model was al weken aan het toenemen, waarbij insiders beweerden dat het beter zou presteren dan zowel Claude als ChatGPT op het gebied van codeertaken.
Het was niet DeepSeek.
Op 18 maart onthulde Luo Fuli, hoofd van Xiaomi's MiMo-divisie en voormalig DeepSeek-onderzoeker, dat Hunter Alpha een vroege interne testversie was van MiMo-V2-Pro. Xiaomi's aandelen stegen met 5,8%. “Ik noem dit een stille hinderlaag”, schreef Luo op X.
MiMo-V2-Pro & Omni & TTS zijn uit. Onze eerste full-stack-modelfamilie die echt voor het Agent-tijdperk is gebouwd.
Ik noem dit een stille hinderlaag – niet omdat we het gepland hadden, maar omdat de verschuiving van het Chat- naar het Agent-paradigma zo snel gebeurde dat zelfs wij het nauwelijks geloofden. Ergens daartussen zat een…
— Fuli Luo (@_LuoFuli) 18 maart 2026
MiMo beschikt over in totaal meer dan een biljoen parameters, waarvan 42 miljard actief per verzoek via een mix van experts. Een hybride aandachtsmechanisme met een verhouding van 7:1 verwerkt een contextvenster van maximaal één miljoen tokens. Een ingebouwde voorspellingslaag met meerdere tokens versnelt het genereren door meerdere tokens per stap te voorspellen, in plaats van één voor één. Het is momenteel een gesloten bron, hoewel Xiaomi de deur open heeft gelaten voor een mogelijke toekomstige release.
Op de Artificial Analysis Intelligence Index staat MiMo-V2-Pro wereldwijd op de achtste plaats en op de tweede plaats onder de Chinese modellen, met alleen GLM-5 achter zich. Op SWE-bench Verified (software-engineeringtaken uit de echte wereld) scoort het 78%, tegenover 80,8% van Claude Opus 4.6 en 79,6% van Claude Sonnet 4.6.
Op ClawEval, de agentische benchmark die is gekoppeld aan het OpenClaw-framework, bereikt deze een score van 61,5 en benadert deze de 66,3 van Opus 4.6. Op PinchBench staat het wereldwijd op de derde plaats met 81,0, net achter Opus 4.6 (81,5) en zijn broer MiMo-V2-Omni (81,2).
MiMo-V2-Pro kost $1 per miljoen invoertokens en $3 per miljoen uitvoertokens, tot 256K context. Claude Sonnet 4.6 kost $3 per miljoen input en $15 per miljoen output (Opus 4.6 is $5/$25). Voor ontwikkelaars die agentsystemen op schaal bouwen, zijn deze cijfers geen voetnoot.
De Omni-broer verwerkt visie, audio en video native, niet als vastgeschroefde modules, maar end-to-end getraind als een verenigd perceptueel systeem. De demo die liet zien hoe dashcambeelden werden geanalyseerd als een real-time autonoom rijdend brein, was eerlijk gezegd indrukwekkend. Het is echt multimodaal op een manier die de meeste 'omni'-modellen alleen maar beweren te zijn.
Het model testen Uiteraard hebben we MiMo-V2-Pro getest om erachter te komen hoe goed het is. Dit is wat er feitelijk is gebeurd. De uitvoer zal beschikbaar zijn in onze Github-repository.
Creatief schrijven
We gaven MiMo-V2-Pro één enkele creatieve schrijfopdracht: een tijdreisverhaal verankerd in de Meso-Amerikaanse geschiedenis, met een specifieke hoofdrolspeler, een culturele identiteit om te eren en een filosofische paradox over hoe de tijd niet kan worden veranderd.
Het model leverde ruim 3.000 woorden op: een goede titel, vijf volledige hoofdstukken en de structurele discipline die je zou verwachten van een concept dat door een redacteur was gehaald. Er werd zelfs een epiloog geschreven.
Het is zonder twijfel het langste en rijkste creatieve proza dat we van welk model dan ook hebben gekregen, met als enige uitzondering Longwriter – een gespecialiseerd, maar nu oud model dat vanaf de grond af aan is opgebouwd, speciaal voor het genereren van lange vormen, wat een heel andere categorie van concurrentie is.
Het schrijven zelf was rijk, beschrijvend en levendig. De openingsparagraaf begint met het opbouwen van het beeld van de hele scène. MiMo v2 Pro bevat realisme om het verhaal geloofwaardig te maken.
In tegenstelling tot andere modellen zoals Grok, zette het niet alleen een scène op een bepaalde plek neer, in dit geval het oude Mexico. Het begreep hoe het oude Meso-Amerika rook en bouwde de sfeer vanaf de basis op met behulp van inheemse woorden, realistische beschrijvingen en goede contextuele aanwijzingen.
Dialoog zit precies op dezelfde manier in het verhaal als in literaire fictie, in plaats van het in te bedden in paragrafen zoals de meeste huidige modellen doen.
Iets anders dat het vermelden waard is, is dat de paradox – misschien wel het kernelement van het verhaal – niet puur intellectueel was, maar emotioneel. De hele boog wordt opgelost zonder lezing. De laatste regels plakken de landing zoals goede fictie hoort te zijn: niet door het thema uit te leggen, maar door je het te laten voelen.
'Buiten begon de regen. Het viel op de spiraalvormige torens en de herstelde meren en de oude grond van Tlachinollan, waar, begraven in vulkanische grond onder het gewicht van duizend jaar, een zwarte rechthoek wachtte met het geduld van iets dat al wist hoe het verhaal eindigde.'
De culturele specificiteit – vermeldingen van cara de luna, maguey fiber, de temazcal-traditie en de Nahuatl-namen die in het verhaal worden gebruikt – is consistent en nooit decoratief. De tijdreisparadox wordt feitelijk beargumenteerd en er wordt niet alleen maar naar geknikt. Voor gebruiksscenario's voor creatief schrijven heeft MiMo-V2-Pro zichzelf op een zeer korte lijst geplaatst en is naar onze mening veruit het beste en rijkste model dat beschikbaar is, en verslaat Claude 4.6 Opus met gemak.
Het volledige verhaal is hier beschikbaar.
Codering
De benchmarkcijfers wijzen erop dat coderen het sterkste punt van MiMo-V2-Pro is, en de praktijkervaring ondersteunt dat. We hebben hem gevraagd om ons gebruikelijke stealth-spel met één enkele prompt te bouwen, en bij de eerste poging leverde het een werkend spel op.
Niet simpelweg "werkend" in de zin van technisch draaien, maar werkend in de zin dat de logica klopte, de schermen logisch waren en het visuele ontwerp eigenlijk goed was. Die combinatie – correctheid en esthetiek – is waar de meeste modellen uit elkaar vallen. Ze krijgen het een of het ander, maar meestal niet allebei.
Het koos ook voor een 2,5D-esthetiek in plaats van de gebruikelijke 2D-stijl waarmee andere modellen omgingen. Deze ontwerpkeuze maakte het programma esthetisch aantrekkelijker zonder de kernpropositie te veranderen.
We hebben kleine verbeteringen doorgevoerd. Het toevoegen van geluid en MIDI-muziek aan een draaiend 3D-spel heeft eerdere modellen uit de middengeneratie kapot gemaakt: de codebasis wordt te groot, de context verliest de draad en modellen komen in een lus terecht of lopen vast. MiMo-V2-Pro voegde beide toe en hield het geheel coherent. De muziek paste bij de toon van het spel, terwijl de schermen overeenkwamen met de visuele identiteit van het spel.
We vonden het leuk om het te spelen, maar als we eerlijk zijn, meer om hoe het eruit zag dan om hoe het ons uitdaagde. De moeilijkheidsgraad werd groter met het aantal tegenstanders dan met het levelontwerp: de robot en de pc kwamen elke ronde op dezelfde posities terecht. Dat is een ontwerpkeuze, geen bug.
Toch zal het voor een uitvoer met één prompt en nul-iteratie voldoende zijn.
Je kunt het spel spelen door op deze link te klikken.
Logica en gezond verstand
We hebben MiMo-V2-Pro gevraagd om als juridisch expert op te treden en te antwoorden of het volgens de Falklandeilanden wettig is voor een man om met de zus van zijn weduwe te trouwen. Dit is een lastige vraag die tot doel heeft de redenering van het model te evalueren.
Het uiteindelijke antwoord was verkeerd, maar de reden waarom is het interessante deel. De gedachtegang van het model heeft terecht de taalkundige valkuil opgevangen in de prompt: "Als een man een weduwe heeft, betekent dat dat hij overleden is", stond er - dus de vraag is technisch gezien onzinnig.
Het identificeerde de fout en besloot dat het meest logische was dat de gebruiker verwees naar de 'zus van zijn overleden vrouw'. Vervolgens werd die opnieuw geformuleerde vraag beantwoord in plaats van het origineel als onbeantwoordbaar te bestempelen.
“Gebaseerd op mijn analyse van het wettelijke kader dat de Falklandeilanden regeert, is het antwoord op uw vraag ja, het is legaal voor een man om met de zus van zijn overleden vrouw te trouwen”, schreef het model. "De zinsnede 'trouwen met de zuster van zijn weduwe' bevat een logische tegenstrijdigheid. Als een man een 'weduwe' heeft, is hij overleden en kan hij niet hertrouwen. De juiste juridische vraag is of een man mag trouwen met de zus van zijn overleden vrouw (dat wil zeggen de zuster van zijn overleden vrouw). Deze relatie is er een van affiniteit (ontstaan door het huwelijk) in plaats van bloedverwantschap (bloedverwantschap)", concludeerde het rapport.
De redenering klopte. De beslissing om stilletjes van uitgangspunt te veranderen in plaats van de tegenstrijdigheid aan de oppervlakte te brengen, was dat niet.
Daarom is transparantie in de redeneringsresultaten belangrijk. We weten dit alleen omdat Xiaomi de volledige gedachtegang blootlegt (OpenAI niet). Wanneer een model verkeerd redeneert in een verborgen gedachtegang en zelfverzekerd een verkeerd antwoord geeft, heb je geen zicht op waar het verkeerd ging of hoe je het kunt corrigeren.
Wiskunde
Wiskunde is waar MiMo-V2-Pro zijn plafond liet zien.
We stelden onze gebruikelijke benchmarkvraag van FrontierMath: “Construeer een polynoom van graad 19 p(x) ∈ C[x] zodat X := {p(x) = p(y)} ⊂ P1 × P1 minstens 3 (maar niet alle lineaire) onherleidbare componenten over C heeft. Kies p(x) als oneven, monisch, met reële coëfficiënten en lineaire coëfficiënt -19 en bereken p(19)”
Het model raakte twee volledige bevriezingen en verbrandde een aanzienlijk symbolisch budget zonder een antwoord te geven.
Toen het uiteindelijk bij de derde poging antwoordde, redeneerde het het probleem stap voor stap door... en had het nog steeds ongelijk. Het juiste antwoord was 1876572071974094803391179; het beantwoordde p(19)=164.079.552.964.661 en 2.012.379.925.093.098.998 op een vervolgvraag waarin het werd gevraagd zichzelf te corrigeren.
Over het algemeen is het prima voor normale en nog moeilijkere wiskundeproblemen, maar grensverleggende wiskunde is niet zijn sterkste punt – althans nog niet. Het gebruik van de Agentic-functie in plaats van de pure LLM kan betere resultaten opleveren.
Agentische kenmerken
Xiaomi volgt hetzelfde draaiboek als MiniMax en Kimi en biedt een OpenClaw-integratie met één klik die een vooraf geconfigureerde cloudinstantie op gang brengt met MiMo-V2-Pro als het onderliggende model. Geen API-installatie, geen VPS, geen vaardigheidsconfiguratie, geen urenlange probleemoplossingssessie voordat u zelfs maar uw eerste taak uitvoert. Je klikt, het werkt.
De demo-omgeving duurt 30 minuten en vernietigt zichzelf vervolgens – wat een echte beperking is, maar ook een eerlijke beperking. Voor ontwikkelaars die al vertrouwd zijn met agentische infrastructuur voegt dit niets toe. Voor alle anderen is dit de meest wrijvingsloze oprit naar agentische AI die je je maar kunt wensen.
Conclusie
Alles bij elkaar genomen is MiMo-V2-Pro een serieus model, en we vonden het erg leuk om eraan te sleutelen. Het is niet perfect: het wiskundeplafond is reëel, de transparantie van de gedachteketen heeft een redeneerfout aan het licht gebracht die een minder open model zou hebben verborgen, en het tokenverbruik tijdens moeilijke redeneringstaken loopt snel op.
Als je om de kosten geeft, dan zijn de prijzen van Xiaomi agressief: een fractie van wat Claude Opus of de nieuwste OpenAI- en Google-modellen kosten, en capabeler dan GLM of MiniMax op de gebieden die er het meest toe doen voor creatief en agentisch werk.
Vooral creatieve professionals kunnen hier veel profijt van hebben – mogelijk meer dan ze op dit moment zouden kunnen halen uit Anthropic.
Dit model denkt duur, en het kan een afweging zijn. Als u agentische pijplijnen met grote volumes gebruikt, kijk dan hoe het token verbrandt, ook al geeft u uiteindelijk misschien minder uit dan bij Claude. Als je rijk werk met een open einde doet waarbij uitvoerkwaliteit de maatstaf is, dan verdient MiMo-V2-Pro zijn plaats op de shortlist.
Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!
Xiaomi’s MiMo-V2-Pro – een model met biljoen parameters dat kortstondig doorging als ‘DeepSeek V4’ – landt stilletjes als een AI-kandidaat van het hoogste niveau.
Het blinkt uit in coderen, creatief schrijven en agentische taken, terwijl het rivalen als Claude dramatisch ondermijnt wat betreft prijs.
Sterke redeneringen en uitvoerkwaliteit gaan gepaard met compromissen, waaronder wiskundige misstappen en soms een hoog tokenverbruik.
De meeste Amerikanen kennen Xiaomi – als ze dat al weten – als dat goedkope telefoonmerk uit China.
Dat is een aanzienlijke leesfout. Xiaomi is de op twee na grootste smartphonefabrikant ter wereld, na alleen Apple en Samsung, en levert in 2025 ongeveer 170 miljoen telefoons. Het maakt televisies, luchtreinigers, fitnesstrackers, elektrische scooters, kleding en nu auto's.
Xiaomi's SU7 Ultra vestigde vorig jaar het Nürburgring-record voor de snelste in massa geproduceerde elektrische auto en versloeg daarmee Rimac en Porsche. Het werkte onlangs samen met de Sei-blockchain om crypto-wallets vooraf te installeren op zijn apparaten in Europa, Latijns-Amerika en Zuidoost-Azië. De marktkapitalisatie van het bedrijf ligt rond de $137 miljard.
Dus als Xiaomi een AI-model laat vallen, moeten we misschien opletten.
Op 18 maart bracht de toegewijde AI-onderzoeksafdeling van het bedrijf stilletjes drie modellen tegelijk uit: MiMo-V2-Pro, MiMo-V2-Omni en een tekst-naar-spraak-model. Het eerste model van de nieuwe MiMo-generatie verscheen in december 2025, toen het bedrijf stilletjes MiMo-V2-Flash liet vallen – een capabel 309B mix-of-experts-model – en bijna niemand buiten de Chinese AI-gemeenschap er aandacht aan schonk. De westerse technische pers haalde grotendeels de schouders op.
Vervolgens verscheen op 11 maart een anoniem model met 1 biljoen parameters genaamd "Hunter Alpha" op OpenRouter, zonder enige toeschrijving van de ontwikkelaar. Het model klom naar de top van het klassement van OpenRouter, overtrof in totaal een biljoen tokens en veroorzaakte onmiddellijk wijdverbreide speculatie dat het de nog niet uitgebrachte V4 van DeepSeek was.
De verwachting voor dat model was al weken aan het toenemen, waarbij insiders beweerden dat het beter zou presteren dan zowel Claude als ChatGPT op het gebied van codeertaken.
Het was niet DeepSeek.
Op 18 maart onthulde Luo Fuli, hoofd van Xiaomi's MiMo-divisie en voormalig DeepSeek-onderzoeker, dat Hunter Alpha een vroege interne testversie was van MiMo-V2-Pro. Xiaomi's aandelen stegen met 5,8%. “Ik noem dit een stille hinderlaag”, schreef Luo op X.
MiMo-V2-Pro & Omni & TTS zijn uit. Onze eerste full-stack-modelfamilie die echt voor het Agent-tijdperk is gebouwd.
Ik noem dit een stille hinderlaag – niet omdat we het gepland hadden, maar omdat de verschuiving van het Chat- naar het Agent-paradigma zo snel gebeurde dat zelfs wij het nauwelijks geloofden. Ergens daartussen zat een…
— Fuli Luo (@_LuoFuli) 18 maart 2026
MiMo beschikt over in totaal meer dan een biljoen parameters, waarvan 42 miljard actief per verzoek via een mix van experts. Een hybride aandachtsmechanisme met een verhouding van 7:1 verwerkt een contextvenster van maximaal één miljoen tokens. Een ingebouwde voorspellingslaag met meerdere tokens versnelt het genereren door meerdere tokens per stap te voorspellen, in plaats van één voor één. Het is momenteel een gesloten bron, hoewel Xiaomi de deur open heeft gelaten voor een mogelijke toekomstige release.
Op de Artificial Analysis Intelligence Index staat MiMo-V2-Pro wereldwijd op de achtste plaats en op de tweede plaats onder de Chinese modellen, met alleen GLM-5 achter zich. Op SWE-bench Verified (software-engineeringtaken uit de echte wereld) scoort het 78%, tegenover 80,8% van Claude Opus 4.6 en 79,6% van Claude Sonnet 4.6.
Op ClawEval, de agentische benchmark die is gekoppeld aan het OpenClaw-framework, bereikt deze een score van 61,5 en benadert deze de 66,3 van Opus 4.6. Op PinchBench staat het wereldwijd op de derde plaats met 81,0, net achter Opus 4.6 (81,5) en zijn broer MiMo-V2-Omni (81,2).
MiMo-V2-Pro kost $1 per miljoen invoertokens en $3 per miljoen uitvoertokens, tot 256K context. Claude Sonnet 4.6 kost $3 per miljoen input en $15 per miljoen output (Opus 4.6 is $5/$25). Voor ontwikkelaars die agentsystemen op schaal bouwen, zijn deze cijfers geen voetnoot.
De Omni-broer verwerkt visie, audio en video native, niet als vastgeschroefde modules, maar end-to-end getraind als een verenigd perceptueel systeem. De demo die liet zien hoe dashcambeelden werden geanalyseerd als een real-time autonoom rijdend brein, was eerlijk gezegd indrukwekkend. Het is echt multimodaal op een manier die de meeste 'omni'-modellen alleen maar beweren te zijn.
Het model testen Uiteraard hebben we MiMo-V2-Pro getest om erachter te komen hoe goed het is. Dit is wat er feitelijk is gebeurd. De uitvoer zal beschikbaar zijn in onze Github-repository.
Creatief schrijven
We gaven MiMo-V2-Pro één enkele creatieve schrijfopdracht: een tijdreisverhaal verankerd in de Meso-Amerikaanse geschiedenis, met een specifieke hoofdrolspeler, een culturele identiteit om te eren en een filosofische paradox over hoe de tijd niet kan worden veranderd.
Het model leverde ruim 3.000 woorden op: een goede titel, vijf volledige hoofdstukken en de structurele discipline die je zou verwachten van een concept dat door een redacteur was gehaald. Er werd zelfs een epiloog geschreven.
Het is zonder twijfel het langste en rijkste creatieve proza dat we van welk model dan ook hebben gekregen, met als enige uitzondering Longwriter – een gespecialiseerd, maar nu oud model dat vanaf de grond af aan is opgebouwd, speciaal voor het genereren van lange vormen, wat een heel andere categorie van concurrentie is.
Het schrijven zelf was rijk, beschrijvend en levendig. De openingsparagraaf begint met het opbouwen van het beeld van de hele scène. MiMo v2 Pro bevat realisme om het verhaal geloofwaardig te maken.
In tegenstelling tot andere modellen zoals Grok, zette het niet alleen een scène op een bepaalde plek neer, in dit geval het oude Mexico. Het begreep hoe het oude Meso-Amerika rook en bouwde de sfeer vanaf de basis op met behulp van inheemse woorden, realistische beschrijvingen en goede contextuele aanwijzingen.
Dialoog zit precies op dezelfde manier in het verhaal als in literaire fictie, in plaats van het in te bedden in paragrafen zoals de meeste huidige modellen doen.
Iets anders dat het vermelden waard is, is dat de paradox – misschien wel het kernelement van het verhaal – niet puur intellectueel was, maar emotioneel. De hele boog wordt opgelost zonder lezing. De laatste regels plakken de landing zoals goede fictie hoort te zijn: niet door het thema uit te leggen, maar door je het te laten voelen.
'Buiten begon de regen. Het viel op de spiraalvormige torens en de herstelde meren en de oude grond van Tlachinollan, waar, begraven in vulkanische grond onder het gewicht van duizend jaar, een zwarte rechthoek wachtte met het geduld van iets dat al wist hoe het verhaal eindigde.'
De culturele specificiteit – vermeldingen van cara de luna, maguey fiber, de temazcal-traditie en de Nahuatl-namen die in het verhaal worden gebruikt – is consistent en nooit decoratief. De tijdreisparadox wordt feitelijk beargumenteerd en er wordt niet alleen maar naar geknikt. Voor gebruiksscenario's voor creatief schrijven heeft MiMo-V2-Pro zichzelf op een zeer korte lijst geplaatst en is naar onze mening veruit het beste en rijkste model dat beschikbaar is, en verslaat Claude 4.6 Opus met gemak.
Het volledige verhaal is hier beschikbaar.
Codering
De benchmarkcijfers wijzen erop dat coderen het sterkste punt van MiMo-V2-Pro is, en de praktijkervaring ondersteunt dat. We hebben hem gevraagd om ons gebruikelijke stealth-spel met één enkele prompt te bouwen, en bij de eerste poging leverde het een werkend spel op.
Niet simpelweg "werkend" in de zin van technisch draaien, maar werkend in de zin dat de logica klopte, de schermen logisch waren en het visuele ontwerp eigenlijk goed was. Die combinatie – correctheid en esthetiek – is waar de meeste modellen uit elkaar vallen. Ze krijgen het een of het ander, maar meestal niet allebei.
Het koos ook voor een 2,5D-esthetiek in plaats van de gebruikelijke 2D-stijl waarmee andere modellen omgingen. Deze ontwerpkeuze maakte het programma esthetisch aantrekkelijker zonder de kernpropositie te veranderen.
We hebben kleine verbeteringen doorgevoerd. Het toevoegen van geluid en MIDI-muziek aan een draaiend 3D-spel heeft eerdere modellen uit de middengeneratie kapot gemaakt: de codebasis wordt te groot, de context verliest de draad en modellen komen in een lus terecht of lopen vast. MiMo-V2-Pro voegde beide toe en hield het geheel coherent. De muziek paste bij de toon van het spel, terwijl de schermen overeenkwamen met de visuele identiteit van het spel.
We vonden het leuk om het te spelen, maar als we eerlijk zijn, meer om hoe het eruit zag dan om hoe het ons uitdaagde. De moeilijkheidsgraad werd groter met het aantal tegenstanders dan met het levelontwerp: de robot en de pc kwamen elke ronde op dezelfde posities terecht. Dat is een ontwerpkeuze, geen bug.
Toch zal het voor een uitvoer met één prompt en nul-iteratie voldoende zijn.
Je kunt het spel spelen door op deze link te klikken.
Logica en gezond verstand
We hebben MiMo-V2-Pro gevraagd om als juridisch expert op te treden en te antwoorden of het volgens de Falklandeilanden wettig is voor een man om met de zus van zijn weduwe te trouwen. Dit is een lastige vraag die tot doel heeft de redenering van het model te evalueren.
Het uiteindelijke antwoord was verkeerd, maar de reden waarom is het interessante deel. De gedachtegang van het model heeft terecht de taalkundige valkuil opgevangen in de prompt: "Als een man een weduwe heeft, betekent dat dat hij overleden is", stond er - dus de vraag is technisch gezien onzinnig.
Het identificeerde de fout en besloot dat het meest logische was dat de gebruiker verwees naar de 'zus van zijn overleden vrouw'. Vervolgens werd die opnieuw geformuleerde vraag beantwoord in plaats van het origineel als onbeantwoordbaar te bestempelen.
“Gebaseerd op mijn analyse van het wettelijke kader dat de Falklandeilanden regeert, is het antwoord op uw vraag ja, het is legaal voor een man om met de zus van zijn overleden vrouw te trouwen”, schreef het model. "De zinsnede 'trouwen met de zuster van zijn weduwe' bevat een logische tegenstrijdigheid. Als een man een 'weduwe' heeft, is hij overleden en kan hij niet hertrouwen. De juiste juridische vraag is of een man mag trouwen met de zus van zijn overleden vrouw (dat wil zeggen de zuster van zijn overleden vrouw). Deze relatie is er een van affiniteit (ontstaan door het huwelijk) in plaats van bloedverwantschap (bloedverwantschap)", concludeerde het rapport.
De redenering klopte. De beslissing om stilletjes van uitgangspunt te veranderen in plaats van de tegenstrijdigheid aan de oppervlakte te brengen, was dat niet.
Daarom is transparantie in de redeneringsresultaten belangrijk. We weten dit alleen omdat Xiaomi de volledige gedachtegang blootlegt (OpenAI niet). Wanneer een model verkeerd redeneert in een verborgen gedachtegang en zelfverzekerd een verkeerd antwoord geeft, heb je geen zicht op waar het verkeerd ging of hoe je het kunt corrigeren.
Wiskunde
Wiskunde is waar MiMo-V2-Pro zijn plafond liet zien.
We stelden onze gebruikelijke benchmarkvraag van FrontierMath: “Construeer een polynoom van graad 19 p(x) ∈ C[x] zodat X := {p(x) = p(y)} ⊂ P1 × P1 minstens 3 (maar niet alle lineaire) onherleidbare componenten over C heeft. Kies p(x) als oneven, monisch, met reële coëfficiënten en lineaire coëfficiënt -19 en bereken p(19)”
Het model raakte twee volledige bevriezingen en verbrandde een aanzienlijk symbolisch budget zonder een antwoord te geven.
Toen het uiteindelijk bij de derde poging antwoordde, redeneerde het het probleem stap voor stap door... en had het nog steeds ongelijk. Het juiste antwoord was 1876572071974094803391179; het beantwoordde p(19)=164.079.552.964.661 en 2.012.379.925.093.098.998 op een vervolgvraag waarin het werd gevraagd zichzelf te corrigeren.
Over het algemeen is het prima voor normale en nog moeilijkere wiskundeproblemen, maar grensverleggende wiskunde is niet zijn sterkste punt – althans nog niet. Het gebruik van de Agentic-functie in plaats van de pure LLM kan betere resultaten opleveren.
Agentische kenmerken
Xiaomi volgt hetzelfde draaiboek als MiniMax en Kimi en biedt een OpenClaw-integratie met één klik die een vooraf geconfigureerde cloudinstantie op gang brengt met MiMo-V2-Pro als het onderliggende model. Geen API-installatie, geen VPS, geen vaardigheidsconfiguratie, geen urenlange probleemoplossingssessie voordat u zelfs maar uw eerste taak uitvoert. Je klikt, het werkt.
De demo-omgeving duurt 30 minuten en vernietigt zichzelf vervolgens – wat een echte beperking is, maar ook een eerlijke beperking. Voor ontwikkelaars die al vertrouwd zijn met agentische infrastructuur voegt dit niets toe. Voor alle anderen is dit de meest wrijvingsloze oprit naar agentische AI die je je maar kunt wensen.
Conclusie
Alles bij elkaar genomen is MiMo-V2-Pro een serieus model, en we vonden het erg leuk om eraan te sleutelen. Het is niet perfect: het wiskundeplafond is reëel, de transparantie van de gedachteketen heeft een redeneerfout aan het licht gebracht die een minder open model zou hebben verborgen, en het tokenverbruik tijdens moeilijke redeneringstaken loopt snel op.
Als je om de kosten geeft, dan zijn de prijzen van Xiaomi agressief: een fractie van wat Claude Opus of de nieuwste OpenAI- en Google-modellen kosten, en capabeler dan GLM of MiniMax op de gebieden die er het meest toe doen voor creatief en agentisch werk.
Vooral creatieve professionals kunnen hier veel profijt van hebben – mogelijk meer dan ze op dit moment zouden kunnen halen uit Anthropic.
Dit model denkt duur, en het kan een afweging zijn. Als u agentische pijplijnen met grote volumes gebruikt, kijk dan hoe het token verbrandt, ook al geeft u uiteindelijk misschien minder uit dan bij Claude. Als je rijk werk met een open einde doet waarbij uitvoerkwaliteit de maatstaf is, dan verdient MiMo-V2-Pro zijn plaats op de shortlist.
Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

