Qwen 3.7 Max Preview: wat de nieuwe AI van Alibaba goed doet en waar het tekortschiet

Default Door Remote - 20 May 2026

In het kort

Qwen 3.7 Max debuteerde op Arena AI op 14 mei 2026, vijf dagen vóór de Alibaba Cloud Summit.

Het model staat wereldwijd op de 13e plaats wat tekst betreft, waardoor Alibaba het zesde AI-lab ter wereld is.

De Plus-variant zal open source zijn; het Max-vlaggenschip zal dat niet doen: Alibaba's verschuiving richting het genereren van inkomsten met zijn beste modellen wordt voortgezet, terwijl ontwikkelaars toegang krijgen tot het onderstaande niveau.

Alibaba schiet AI-modellen als een gek uit, en ze zijn nu veel krachtiger dan ooit nu de Qwen 3.7-familie wordt getest. Deze week verschenen stilletjes twee nieuwe modellen op het scorebord van Arena AI: Qwen 3.7 Max-Preview en Qwen 3.7-Plus-Preview. De modellen zijn uiteraard het voorgerecht voor de Alibaba Cloud Summit 2026.

🚀🚀Qwen3.7 Preview landt in Arena!

Hier komen Qwen3.7-Max-Preview & Qwen3.7-Plus-Preview. Alibaba nu #6 lab in tekst, #5 in visie.⚡️⚡️

Ik kan niet wachten om modellen uit de Qwen3.7-serie uit te brengen! Blijf op de hoogte! @arena https://t.co/nhtxlCZI6D

— Qwen (@Alibaba_Qwen) 18 mei 2026

Dit is hetzelfde speelboek dat Alibaba in april met Qwen 3.6 Max draaide. Valideer eerst. Markt later. Het is een slimmere zet dan het lijkt: Arena AI maakt gebruik van blinde, crowdsourced-vergelijkingen, zodat de ranglijst weergeeft wat echte gebruikers daadwerkelijk verkiezen, en niet wat een benchmark-persbericht zegt.

De resultaten hielden stand. Zoals Decrypt aangaf toen Qwen 3.6 Max uitkwam, is Alibaba al maanden stilletjes de kloof met westerse grenslaboratoria aan het verkleinen. Qwen 3.7 Max-Preview belandt op nummer 13 overall in Text Arena, op de zevende plaats in wiskunde, negende in prompts op expertniveau en negende in software en IT. Dat maakt Alibaba wereldwijd het zesde AI-lab op het gebied van tekst, en de vijfde op het gebied van visiemogelijkheden.

De open-sourcevraag is hier van belang. Alibaba heeft vorige maand het gratis niveau van Qwen Code om zeep geholpen en heeft zijn beste modellen achter een betaalmuur geplaatst. Qwen 3.7 volgt dezelfde logica: Plus wordt open source, Max blijft eigen. De officiële Qwen 3.7 blogpost bevestigt dit rechtstreeks. Ontwikkelaars die de beste Qwen willen, zullen ervoor betalen.

Dat gezegd hebbende, zijn de beste kleine, open-source agentische coderingsmodellen voor lokale gevolgtrekking gebaseerd op Qwen, en deze nieuwe familie belooft verbeteringen te brengen in wat 3.6 zo populair maakte onder AI-enthousiastelingen.

Beide modellen (Plus en Max) zijn momenteel vergrendeld in de diepe denkmodus, waarbij zoeken op internet en code-interpretatie zijn uitgeschakeld. Dit is een voorproefje. De volledige release werd verwacht tijdens de Cloud Summit op 20 mei.

We hebben een snelle test uitgevoerd op de Qwen 3.7 Max om te zien hoe deze zich verhoudt tot een ander Chinees model, Xiaomi Mimo, dat buitengewoon goed presteerde. Dit is wat we hebben gevonden.

Creatief schrijven We hebben Qwen 3.7 Max op dezelfde prompt uitgevoerd als voor MiMo-V2-Pro: een tijdreisverhaal opgebouwd rond de culturele achtergrond van de hoofdpersoon, een filosofische tijdparadox en een specifieke historische setting. Beide modellen begrepen de opdracht. Wat ze ermee deden, kon niet méér verschillend zijn.

Qwen ging naar het Caribisch gebied. Het verhaal begint in 2150 Neo-Borinquen, een verzonken Puerto Rico waar titanium zeeweringen levend worden opgegeten door een synthetische bacterie genaamd de Crimson Blight. De hoofdpersoon draagt een digitale cemí, een holografische projectie van de oude Taíno-geeststeen die zijn grootmoeder hem gaf. De culturele specificiteit is onmiddellijk en correct: de Ostionoid-afstamming, de verwijzing naar Yemayá, het Afro-Caribische erfgoed.

Qwen heeft 'Latijns-Amerikaans' niet door Google vertaald naar een setting, maar de kadrering maakt het duidelijk, iets wat veel andere modellen niet begrijpen.

Het schrift is echter strakker en hoekiger dan dat van MiMo. Vergelijk de twee openingen. MiMo: "De chronopode rook naar verbrand kopaal toen hij openging. De lucht raakte hem als eerste - dik, bijna taai van vocht, met de groene rotting van de jungle en iets zoeters eronder: wilde cacao die bloeide in de onderlaag."

Qwen: "De met neon doordrenkte smog van Neo-Borinquen in het jaar 2150 smaakte naar ozon en stervende zeewier. Jose Lanz stond op de afgrond van de drijvende zeewering, zijn amberkleurige ogen weerspiegelden het ziekelijke, pulserende magenta van de falende holografische advertenties van de stad."

MiMo gaat diep in op de textuur. Qwen gaat wijd de setting in. Beide werken. Het zijn gewoon verschillende instincten.

Hoewel beide modellen in de opening redelijk zijn, gaan ze in totaal verschillende richtingen naarmate het verhaal vordert. Dit is meerdere keren getest met hetzelfde resultaat. Qwen gaat regelrecht op de kern in: geen uitwerking, geen rijkdom. Het volgt de prompt, maar niet op een boeiende manier.

De paradoxresolutie is het grotere verschil. In het verhaal van Qwen was het belangrijkste element van het verhaal supergemakkelijk te begrijpen. Er was vervuiling in de futuristische samenleving. Jose reist terug in de tijd om het probleem op te lossen, maar de vervuiling werd veroorzaakt door de komst van zijn tijdmachine in het verleden, dus hij kon het probleem niet oplossen omdat het al een onoplosbaar probleem was in zijn eigen tijdlijn.

Het verhaal is korter dan dat van MiMo en minder maximalistisch. Waar MiMo vijf volledige hoofdstukken bouwde met gelaagde innerlijkheid en een langzame uitbetaling, schreef Qwen een scherp, efficiënt kortverhaal dat zijn punch en eindigt. Geen van beide benaderingen is verkeerd. Als MiMo schrijft als een romanschrijver, schrijft Qwen als een zeer goede schrijver van korte verhalen. Afhankelijk van de gebruikscasus is een daarvan precies wat u zoekt.

Je kunt onze verhalen lezen in onze Github-repository.

CoderingAls het gaat om coderen, met name een game-uitdaging, koos Qwen 3.7 Max voor 2D toen MiMo voor 3D ging. Dat is het onderzoeken waard. Het is niet noodzakelijkerwijs een beperking, maar een weloverwogen besluit. Bij een onderlinge vergelijking van de eerste prompt-uitvoer produceerde MiMo echter een visueel rijkere ervaring.

Wat Qwen bouwde was echter logischer coherent. De game bevatte daadwerkelijk game-designdenken. Vijandelijke journalisten hadden individuele namen en toegewezen rollen. De speler kan actief ontsnappen wanneer hij wordt opgemerkt, in plaats van vast te zitten in een statische detectiestatus. Er waren echte schuilplaatsen in het level ingebakken. De zichtlijn vertoonde normaal zichtgedrag (botsingen met objecten blokkeerden de detectie niet volledig), maar de onderliggende logica was strakker en doelgerichter dan de meeste first-pass-uitvoer die we hebben getest.

Vervolgens hebben we het model gevraagd om de game in een 3D-esthetiek om te zetten, en dat is gelukt. Daar zal het niet mee worstelen.

Qwen heeft ook een sterke voorkeur voor beknopte code. Minder regels voor hetzelfde functionele resultaat, zonder dat dit ten koste gaat van de leesbaarheid of correctheid. In productieomgevingen waar andere mensen de codebase moeten onderhouden, kan dit een pluspunt zijn. Het algehele resultaat is niet onze beste coderingstest voor alle modellen die we hebben beoordeeld, maar het is een respectabele, functionele uitvoer die laat zien dat het model over het probleem nadenkt in plaats van de prompt letterlijk uit te voeren.

Het spel is hier beschikbaar.

Logica en gezond verstandZelfde prompt als MiMo. Beter resultaat. Aanzienlijk beter.

Op de vraag of een man volgens de wet van de Falklandeilanden legaal met de zus van zijn weduwe mag trouwen, identificeerde Qwens gedachtegang onmiddellijk wat het noemde 'een slim vermomde puzzel die de juridische kennis lijkt te testen, maar berust op een feitelijke onmogelijkheid'. Tot nu toe hetzelfde als MiMo. Het verschil is wat er daarna gebeurde.

MiMo herformuleerde de vraag stilletjes en beantwoordde de gecorrigeerde versie zonder de oorspronkelijke onmogelijkheid te benadrukken. Qwen bracht het expliciet naar voren in het uiteindelijke antwoord. Het behandelde eerst de letterlijke lezing – een man met een weduwe is dood, en de doden kunnen geen huwelijkscontract uitvoeren – en bood vervolgens de volledige inhoudelijke juridische analyse van de veronderstelde bedoeling: of een weduwnaar volgens de Falklandeilanden-wet met de zus van zijn overleden vrouw kan trouwen. Het liep door de Deceased Wife's Sister's Marriage Act 1907, de Marriage (Prohibited Degrees of Relationship) Act 1986 en de huidige statuten van de Falklandeilanden.

Als resultaat presenteerde Qwen twee duidelijk gelabelde conclusies zonder de intentie van de gebruiker aan te nemen. Dat is een completer en eerlijker antwoord – en je hoeft niet in de gedachtegang te duiken om te zien waar het naartoe is gegaan.

WiskundeDit is de duidelijkste overwinning van Qwen 3.7 Max tijdens alle tests die we hebben uitgevoerd. Het probleem, zoals je kunt zien in onze Github-repository – construeer een Dickson-polynoom van graad 19, verifieer de onherleidbare factoring van de componenten over de complexe getallen en bereken p(19) – is het soort probleem dat de meeste modellen in een symbolische spiraal stuurt of een zelfverzekerde snelkoppeling oplevert die toevallig verkeerd is.

Qwen heeft het correct verwerkt. Het identificeerde de Chebyshev-polynoomequivalentie, verifieerde dat p(x) - p(y) ontbindt in 10 onherleidbare componenten over ℂ - één lineaire diagonaal plus negen kwadratische curven - en stelde de herhalingsrelatie Sn = 19S{n−1} − S_{n−2} in om de uiteindelijke waarde iteratief te berekenen. Het voerde kruiscontroles uit via modulaire rekenkunde tegen zeven verschillende moduli. Het antwoord: 1.876.572.071.974.094.803.391.179. Juist.

MiMo bleef twee keer stilstaan bij hetzelfde probleem voordat hij uiteindelijk een verkeerd antwoord gaf. Qwen bevroor niet één keer. Dat is een betekenisvol gat in de praktische bruikbaarheid – en het komt overeen met de Arena Math-ranglijst op de zevende plaats wereldwijd, wat opmerkelijk is voor een model in deze prijsklasse. De inzet van het Qwen-team op wiskundig redeneren als kernvaardigheid lijkt vruchten af te werpen.

Dit probleem is al opgelost, maar we hebben het gratis gedaan in een zero shot-opstelling (één prompt, één resultaat). Eerdere pogingen vereisten extreem krachtige modellen in denkconfiguraties die niet echt haalbaar zijn voor normale dagelijkse taken.

Hier zijn de resultaten.

Niet-wiskundig redenerenDit is waar Qwen 3.7 Max struikelde. Het mysterieprobleem – een winterschoolreisje, een stalker, een onschuldige verdachte – is een test van narratief redeneren en tijdlijnlogica.

Voor ons probleem – waarbij we de naam moesten raden van een stalker tijdens een schoolreisje met verschillende ouderejaarsstudenten en andere bemanningsleden – is het juiste antwoord Leo. Het model zei dat het een van de senioren was.

De redenering was niet onsamenhangend. Qwen bouwde een structureel solide zaak rond de senioren, maar negeerde de tijdlijn volledig. Leo was al terug in de hut voordat twee van de drie ontvoeringen plaatsvonden. De jas was nat van de val op ijzel. Het geheugenverlies was het gevolg van een hersenschudding, geen handig coververhaal. Qwen zag een narratief kader en beargumenteerde dit goed. De tijdlijn werd niet vergeleken met het frame.

De resultaten zijn te vinden in onze Github-repository.

Conclusie Dit is een behoorlijk mooi model dat waarschijnlijk de aandacht zal trekken onder degenen die Hermes-workflows uitvoeren of op zoek zijn naar alternatieven voor westerse AI.

Qwen 3.7 Max is gebouwd voor mensen die met moeilijke problemen werken. Wiskunde, gestructureerd redeneren, meertalige uitvoer, beknopte code: het is allemaal een topper en zal waarschijnlijk minder kosten dan Claude Opus, of zelfs Sonnet als de prijzen dalen. Als dat uw workflow is, is dit uw model.

Creatieve professionals krijgen een solide output, maar niets spectaculairs. Qwen schrijft efficiënt, niet expressief. Het zal uw prompt volgen, maar het zal niet wijd gaan zoals sommige modellen doen. Goed genoeg voor de meeste gebruikssituaties. Niet de eerste keuze voor lang verhaalwerk.

De preview sluit de code-interpreter en het zoeken op internet volledig uit: de autonome 1000-staps-runs die Alibaba veelbelovend is, zijn nog niet getest terrein. De niet-wiskundige redeneerkloof is ook reëel, maar is waarschijnlijk een kwestie van Alibaba-instellingen aanpassen en een paar laatste aanpassingen doen voordat het model officieel wordt vrijgegeven. Verwacht dus verbeteringen in de nabije toekomst, net als bij Qwen 3.6.

Officiële API-prijzen en de volledige release worden verwacht na de Alibaba Cloud Summit op 20 mei.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← OpenAI zal binnen enkele dagen een beursintroductie indienen, gericht op septembernotering: WSJ Prijsvoorspellingen 20/05: BTC, ETH, BNB, XRP, SOL, DOGE, HYPE, ADA, ZEC, BCH →