De DiffusionGemma AI van Google bereikt 1.000 tokens per seconde, en het is gratis

Default Door Remote - 10 Jun 2026

In het kort

Google heeft DiffusionGemma uitgebracht, een gratis open-weight-model dat volledige blokken van 256 token tegelijkertijd genereert via tekstdiffusie, waardoor er meer dan 1.000 tokens per seconde worden gehaald op een NVIDIA H100, vier keer sneller dan standaard autoregressieve modellen.

De aangepaste tekenmodule die DiffusionGemma nodig heeft voor lokale inferentie bestaat nog niet in een publieke runtime (niet in mlx-lm, niet in LM Studio), waardoor het feitelijk onbruikbaar is op de meeste consumentenconfiguraties van vandaag.

Op NVIDIA NIM arriveerde het model vooraf geconfigureerd op 8.192 tokens aan context (onder de grens van 64.000 tokens die agentische raamwerken zoals Hermes Agent vereisen), wat betekent dat autonome workflows niet kunnen worden uitgevoerd zonder handmatige herconfiguratie.

Google heeft vandaag DiffusionGemma laten vallen, een open model AI die tekst genereert op de manier waarop beeldgeneratoren afbeeldingen maken: begin met ruis, verfijn totdat het zinvol is. Het haalt 1.000 tokens per seconde op een NVIDIA H100. (Tokens zijn de basiseenheid van informatie die een AI-model verwerkt.) Dat betekent dat het vier keer sneller is dan gewone Gemma. Het is ook gratis, Apache 2.0, met gewichten op Hugging Face.

Het addertje onder het gras zit, zoals altijd, in de kleine lettertjes. Volgens de aankondiging van Google haalt het model "700+ tokens per seconde op NVIDIA GeForce RTX 5090." Het loopt ook achter op de standaard Gemma 4 wat betreft uitvoerkwaliteit.

Google zegt het zelf. Dit is een snelheidsmodel, geen kwaliteitsupgrade.

Wat dit eigenlijk doetElke LLM die je hebt gebruikt, is een typemachine. Eén token tegelijk, waarbij elk woord afhankelijk is van het laatste. Dat is hoe autoregressieve architecturen werken.

DiffusieGemma doet dat niet. In plaats van tokens opeenvolgend te genereren, begint het met parallelle verfijnde stukjes onleesbare tekst. Volgens de ontwikkelaarshandleiding van Google "begint het met een canvas van willekeurige placeholder-tokens" en worden er iteratief zelfverzekerde tokens vergrendeld totdat het hele blok in beeld komt. Tweehonderdzesenvijftig tokens per voorwaartse pas. De GPU blijft bezig.

Het neveneffect is bidirectionele aandacht: elk token kan elk ander token zien terwijl het wordt gegenereerd, wat onmogelijk is in autoregressieve modellen (ze kunnen de toekomst niet zien, wat er gaat worden gecodeerd). Dat maakt het buitengewoon goed in taken waarbij het einde van het antwoord het begin beperkt: code-invulling, gestructureerde uitvoer, problemen met zware beperkingen, enz. Google heeft een versie verfijnd om Sudoku als demo op te lossen. Het basismodel had ongeveer 0% van de puzzels goed.

De verfijnde versie bereikte 80%.

Tekstverspreiding is al jaren een onderzoeksproject. MDLM, SEDD, LLaDA, Dream – academische modellen die bewezen dat de aanpak op kleine schaal werkte en meestal als proof-of-concept bleef bestaan. Inception Labs bracht Mercury 2 in februari 2026 op de markt als het eerste commerciële diffusie-redeneringsmodel, waarbij snelheden werden geclaimd die vijf keer hoger waren dan die van concurrenten die voor snelheid waren geoptimaliseerd.

Maar niets daarvan was open-weight, en niets ervan werd geleverd met day-zero-ondersteuning in vLLM, Hugging Face Transformers en Unsloth. DiffusionGemma is de eerste grote open release van een tier-one-lab.

Er is ook een historische ironie die het vermelden waard is. Beeldgeneratoren zijn begonnen als diffusiemodellen (vandaar de naam Stable Diffusion) en evolueren nu naar autoregressieve architecturen voor betere kwaliteit. Taalmodellen begonnen als autoregressief en experimenteren nu met diffusie voor snelheid.

Waarom het lastig is om te rennen… voorlopig is het voor het efficiënt uitvoeren van DiffusionGemma vereist dat er een tekenaar is: een lichtgewicht module die parallelle tokenblokken voorstelt, die het hoofdmodel vervolgens in één voorwaartse doorgang verifieert. Dit wordt speculatieve decodering genoemd. DFlash is een raamwerk dat begin 2026 is gepubliceerd en dat een klein diffusiemodel als tekenaar gebruikt, waardoor sommige taken meer dan zes keer sneller kunnen worden uitgevoerd. Het is de motor die deze modelklasse praktisch maakt.

Het probleem: DiffusionGemma heeft een specifiek tekenprogramma nodig dat lokaal kan worden uitgevoerd via MLX, het machine learning-framework van Apple voor Apple Silicon. Die module bestaat in geen enkele openbare versie van mlx-lm, in geen enkel open pull-verzoek of in de gebundelde runtime van LM Studio.

We hebben geprobeerd DiffusionGemma met Hermes uit te voeren via NVIDIA NIM. Het model werd geladen, maar toen: "agent init mislukt: model google/diffusiongemma-26b-a4b-it heeft een contextvenster van 8.192 tokens, wat lager is dan het minimum van 64.000 vereist door Hermes Agent."

Om precies te zijn: het werkelijke contextvenster van DiffusionGemma is 256K tokens. Het aantal van 8.192 was dat Nvidia de zaken standaard in de war bracht, en niet de architectonische limiet van het model.

In de praktijk vereist het correct configureren voor agentisch gebruik handmatig werk waar de meeste gewone gebruikers nog niet achter zijn gekomen, en Hermes Agent kan eenvoudigweg niet initialiseren zonder dit. Parallelle snelheid betekent niets als de agent niet kan opstarten.

Hopelijk zal de gemeenschap de komende dagen betere middelen produceren om deze modellen uit te voeren.

Voor wie is dit eigenlijk bedoeld? Ontwikkelaars met NVIDIA RTX 4090- of 5090-hardware die realtime tools bouwen: inline-editors, automatisch aanvullen, code-invulling, gestructureerd genereren. Dat is het doel. Zoals Decrypt in mei al aangaf, is Google voortdurend bezig geweest om lokale gevolgtrekkingen sneller te maken zonder nieuwe hardware.

Voor onderzoekers opent bidirectionele generatie een gebied dat autoregressieve modellen eenvoudigweg niet kunnen bereiken: eiwitsequenties, wiskundige grafieken, alles waar positie N afhangt van positie N+50. Dat is geen kleinigheid.

Google lanceerde Gemma 4 onder Apache 2.0 in april, en DiffusionGemma zet die strategie voort. Er is vanaf vandaag al een concept llama.cpp PR geopend. Wanneer de toolchain zijn achterstand inhaalt, bereikt dit een veel breder publiek.

Op een machine met een capabele afzonderlijke GPU zijn 1.000 tokens per seconde reëel.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← CEO van Anthropic waarschuwt dat AI te krachtig wordt, terwijl hij krachtige AI vrijgeeft