Mercury 2 AI van Inception Labs verslaat Google's DiffusionGemma in zijn eigen spel

Default Door Remote - 21 Jun 2026

In het kort

Mercury 2 van Inception Labs genereert ongeveer 1.000 tokens per seconde en scoorde 90 op de AIME 2026

Google's recente DiffusionGemma haalt vergelijkbare snelheden, maar presteert slechter op benchmarks.

DiffusionGemma is gratis en met open gewicht op Hugging Face. Mercury 2 is een betaald API-model met gesloten gewicht.

Inception Labs introduceerde Mercury 2 donderdag en noemde het 's werelds snelste redeneertaalmodel. Volgens de aankondiging van het bedrijf genereert het ongeveer 1.000 tokens per seconde – de stukjes tekst die een AI-model leest en schrijft – tegenover ongeveer 89 tokens per seconde voor Claude Haiku 4.5 Reasoning van Anthropic en 71 voor OpenAI’s GPT-5 Mini.

Dat plaatst het in dezelfde snelheidsklasse die Google later zou claimen voor DiffusionGemma.

Welkom in het diffusietijdperk.

We gokten al jaren geleden op parallelle generatie, toen het nog een tegendraads idee was. Het is geweldig om te zien dat de industrie arriveert.

Mercury 2 blijft toonaangevend op de Pareto-grens wat betreft kwaliteit, snelheid en kosten onder publiek beschikbare diffusie-LLM's. pic.twitter.com/qSHuiR7vmH

— Oprichting (@_inception_ai) 18 juni 2026

Beide modellen bereiken dit doel door de typemachine-benadering van schrijven te laten vallen. Een standaard chatbot schrijft één woord, controleert wat hij zojuist heeft geschreven en schrijft vervolgens het volgende, in een lus totdat het antwoord klaar is. Diffusiemodellen vullen in plaats daarvan een blok tekst met willekeurige tijdelijke aanduidingen en wissen de ruis over een handvol parallelle passages (dezelfde truc die statische elektriciteit in een foto verandert in beeldgeneratoren als Stable Diffusion) totdat het hele blok in één keer een voltooid antwoord oplevert.

Waar de twee uiteenlopen is wat dat proces overleeft. Op AIME 2026 – gebouwd op basis van echte American Invitational Mathematics Examination-problemen en gescoord als het percentage correct opgelost – bereikte Mercury 2 90%. Google testte DiffusionGemma op dezelfde set, waar het 69,1% scoorde, terwijl de standaard, niet-diffusie Gemma 4 88,3% scoorde op dezelfde test.

Op GPQA, een wetenschappelijke benchmark op PhD-niveau, scoorden de twee modellen bijna gelijk: Mercury 2 op 77% tegenover DiffusionGemma's 73,2%. Maar Google's eigen ontwikkelaarsgids beveelt standaard Gemma 4 aan voor applicaties die maximale kwaliteit vereisen, waarbij DiffusionGemma over de hele linie voorop loopt.

De snelheidsclaim houdt ook buiten het laboratorium stand. Augment Code, een bedrijf dat zich bezighoudt met AI-coderingsagenten, verruilde Mercury 2 voor Claude Opus 4.7 van Anthropic op zijn subagent voor contextverdichting en zag een daling van 82% in latentie en een verlaging van 90% in kosten, terwijl het dezelfde uitvoerkwaliteit rapporteerde, volgens een gezamenlijke casestudy.

Inception is gebaseerd op onderzoek van oprichter Stefano Ermon, een Stanford-professor die co-auteur was van enkele van de op partituren gebaseerde diffusietechnieken die de hedendaagse beeldgeneratoren aandrijven. De financieringsronde van $ 50 miljoen voor de startup kreeg steun van Nvidia's venture-tak en individuele investeerders Andrew Ng en Andrej Karpathy.

Voor niet-technische gebruikers is het belangrijkste dat de meeste mensen pas opmerken de 'stroom'. Traditionele modellen laten je wachten tussen gedachten tijdens een lange sessie. Diffusiemodellen als deze geven de AI het gevoel dat hij gelijke tred met u houdt: onmiddellijke automatische aanvulling, snelle iteraties van code of plannen, en subagenten die het saaie, grote werk aankunnen zonder het hele systeem naar beneden te slepen.

Die subagentlaag is de interessante architecturale verschuiving. Complexe AI-systemen zijn niet langer één gigantisch slim model. Het zijn orkesten van gespecialiseerde helpers: één voor diepgaande redeneringen, verschillende voor snelle samenvattingen, routering, opzoeken van tools, outputcontrole, enz. Sequentiële modellen maken die hulpprogramma's duur en traag. Parallelle diffusie-exemplaren maken ze goedkoop en snel genoeg om royaal te gebruiken.

Realistisch voorbehoud voor gewone gebruikers: deze zijn nog steeds het beste voor snelheidsgevoelige delen van workflows met een hoog volume in plaats van de absoluut moeilijkste grensredenering (waar de grootste AR-modellen voorlopig nog een voorsprong kunnen hebben). Mercury 2 is geen open gewicht, dus het is voorlopig API/cloud. En net als de versie van Google is het volledige ecosysteem (lokale runtimes, agentframeworks) nog steeds bezig met een inhaalslag om het overal naadloos te maken.

Gebruik cases die onmiddellijk opduiken: real-time snel programmeren en 'vibe-codering' waarbij het model uw bewerkingen bijhoudt, multi-agent codering of ondersteuningssystemen waarbij veel snelle sub-oproepen plaatsvinden, spraakinterfaces die niet laggy aanvoelen, en elke latentiegevoelige autocomplete of voorspelling van de volgende actie. Op grote schaal lopen de kosten- en energiebesparingen door een hogere doorvoer op standaardhardware snel op.

De cijfers die Inception deelt (en de onafhankelijke evaluaties) maken dit visueel duidelijk: Mercury 2 bevindt zich in het "snelle en goede" kwadrant voor diffusiemodellen, waardoor wat vroeger exotische hardware nodig had, wordt teruggedrongen tot gewone GPU's.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Bitcoin kreeg een fooi van $66K, omdat de handelaar 'verdachte' koerswinsten van BTC signaleert