DeepSeek V4 is er: de Pro-versie kost 98% minder dan GPT 5.5 Pro

Default Door Remote - 24 Apr 2026

In het kort

DeepSeek heeft zijn nieuwe V4-Pro-model uitgebracht met 1,6 biljoen parameters.

Het kost $1,74/$3,48 per miljoen input/output-tokens, ongeveer 1/20ste van de prijs van Claude Opus 4.7 en 98% minder dan GPT 5.5 Pro.

DeepSeek trainde V4 gedeeltelijk op Huawei Ascend-chips, omzeilde Amerikaanse exportbeperkingen, en zegt dat zodra 950 nieuwe supernodes later in 2026 online komen, de toch al lage prijs van het Pro-model verder zal dalen.

DeepSeek is terug en verscheen een paar uur nadat OpenAI GPT-5.5 had uitgebracht. Toeval? Misschien. Maar als je een Chinees AI-laboratorium bent dat de Amerikaanse overheid de afgelopen drie jaar heeft geprobeerd te vertragen met een verbod op de export van chips, wordt je gevoel voor timing behoorlijk scherp.

Het in Hangzhou gevestigde laboratorium heeft vandaag preview-versies van DeepSeek-V4-Pro en DeepSeek-V4-Flash uitgebracht, beide open-weight, beide met één miljoen token-contextvensters. Dat betekent dat je in principe kunt werken met een context die ongeveer zo groot is als de Lord of the Rings-trilogie voordat het model instort. Beide zijn ook ruim lager geprijsd dan iets vergelijkbaars in het Westen, en beide zijn gratis voor degenen die lokaal kunnen werken.

De laatste grote verstoring van DeepSeek – R1 in januari 2025 – veegde in één dag $600 miljard van de marktkapitalisatie van Nvidia weg, terwijl investeerders zich afvroegen of Amerikaanse bedrijven echt zulke enorme investeringen nodig hadden om resultaten te produceren die een klein Chinees laboratorium met een fractie van de kosten behaalde. V4 is een ander soort zet: stiller, technischer en meer gericht op efficiëntie voor iedereen die daadwerkelijk met AI bouwt.

Twee modellen, heel verschillende taken Van de twee nieuwe modellen is de V4-Pro van DeepSeek de grootste, met in totaal 1,6 biljoen parameters. Om dat in perspectief te plaatsen: parameters zijn de interne ‘instellingen’ of ‘hersencellen’ die een model gebruikt om kennis op te slaan en patronen te herkennen – hoe meer parameters een model heeft, des te complexere informatie het theoretisch kan bevatten. Dat maakt het tot nu toe het grootste open-sourcemodel op de LLM-markt. De omvang klinkt misschien belachelijk totdat je erachter komt dat er slechts 49 miljard per gevolgtrekking worden geactiveerd.

Dit is de Mixture-of-Experts-truc die DeepSeek sinds V3 heeft verfijnd: het volledige model zit daar, maar alleen het relevante deel ervan wordt wakker voor een bepaald verzoek. Meer kennis, dezelfde computerrekening.

“DeepSeek-V4-Pro-Max, de maximale redeneringsinspanningsmodus van DeepSeek-V4-Pro, verbetert de kennismogelijkheden van open-sourcemodellen aanzienlijk en vestigt zichzelf stevig als het beste open-sourcemodel dat momenteel beschikbaar is”, schreef Deepseek in de officiële kaart van het model op Huggingface. “Het levert topprestaties op het gebied van codeerbenchmarks en overbrugt aanzienlijk de kloof met toonaangevende closed-sourcemodellen op het gebied van redeneren en agentische taken.”

V4-Flash is de praktische: 284 miljard totale parameters, 13 miljard actief. Het is ontworpen om sneller en goedkoper te zijn en volgens de eigen benchmarks van DeepSeek “vergelijkbare redeneerprestaties te bereiken met de Pro-versie bij een groter denkbudget.”

Beide ondersteunen een miljoen tokens aan context. Dat zijn ongeveer 750.000 woorden – ongeveer de hele “Lord of the Rings”-trilogie plus verandering. En dat is een standaardfunctie, geen premiumlaag.

Het (niet zo) geheime sausje van Deepseek: ervoor zorgen dat de aandacht op grote schaal niet verschrikkelijk is. Hier is het technische gedeelte voor nerds of mensen die geïnteresseerd zijn in de magie die het model aandrijft. Deepseek verbergt zijn geheimen niet en alles is gratis beschikbaar: het volledige artikel is beschikbaar op Github.

Standaard AI-aandacht – het mechanisme waarmee een model relaties tussen woorden kan begrijpen – heeft een brutaal schaalprobleem. Elke keer dat u de contextlengte verdubbelt, verviervoudigen de rekenkosten grofweg. Het uitvoeren van een model op een miljoen tokens is dus niet slechts twee keer zo duur als 500.000 tokens. Het is vier keer zo duur. Dit is de reden waarom lange contexten van oudsher een selectievakje waren dat labs toevoegden en vervolgens stilzwijgend achter de snelheidslimieten kwamen.

DeepSeek heeft twee nieuwe aandachtstypen bedacht om dit te omzeilen. De eerste, gecomprimeerde spaarzame aandacht, werkt in twee stappen. Het comprimeert eerst groepen tokens (bijvoorbeeld elke vier tokens) tot één item. Vervolgens gebruikt het, in plaats van al deze gecomprimeerde vermeldingen te behandelen, een "Lightning Indexer" om alleen de meest relevante resultaten voor een bepaalde zoekopdracht te kiezen. Je model gaat van het beheren van een miljoen tokens naar het beheren van een veel kleinere set van de belangrijkste brokken, een beetje zoals een bibliothecaris die niet elk boek leest, maar precies weet welke plank hij moet controleren.

De tweede, zwaar gecomprimeerde aandacht, is agressiever. Het voegt elke 128 tokens samen in één enkele invoer: geen schaarse selectie, alleen brute compressie. Je verliest fijnkorrelige details, maar je krijgt een extreem goedkoop globaal beeld. De twee aandachtstypen lopen in afwisselende lagen, zodat het model zowel de details als het overzicht krijgt.

Het resultaat uit het technische artikel: met één miljoen tokens gebruikt V4-Pro 27% van de rekenkracht die zijn voorganger (V3.2) nodig had. KV-cache (het geheugen dat het model nodig heeft om de context bij te houden) daalt tot slechts 10% van V3.2. V4-Flash gaat nog een stap verder: 10% rekenkracht, 7% geheugen.

En dit zorgde er uiteindelijk voor dat Deepseek een veel lagere prijs per token kon bieden dan zijn concurrenten, terwijl het vergelijkbare resultaten opleverde. Om dat in termen van dollars te zeggen: GPT-5.5 werd gisteren gelanceerd met $5 input en $30 output per miljoen tokens, terwijl GPT-5.5 Pro geprijsd was op $30 per miljoen input tokens en $180 per miljoen output tokens.

Deepseek V4-Pro kost $ 1,74 invoer en $ 3,48 uitvoer. V4-Flash heeft een invoer van $ 0,14 en een uitvoer van $ 0,28. Cline-CEO Saoud Rizwan wees erop dat als Uber DeepSeek had gebruikt in plaats van Claude, het AI-budget voor 2026 – naar verluidt genoeg voor vier maanden gebruik – zeven jaar zou hebben geduurd.

deepseek v4 is nu het goedkoopste sota-model dat verkrijgbaar is voor 1/20e van de prijs van opus 4.7.

voor perspectief: als uber deepseek zou gebruiken in plaats van claude, zou hun ai-budget voor 2026 zeven jaar hebben geduurd in plaats van slechts vier maanden. pic.twitter.com/i9rJZzvRBV

— Saoud Rizwan (@sdrzn) 24 april 2026

De benchmarksDeepSeek doet iets ongewoons in zijn technisch rapport: het publiceert de hiaten. De meeste modelreleases kiezen de benchmarks waar ze winnen. DeepSeek voerde de volledige vergelijking uit met GPT-5.4 en Gemini-3.1-Pro, ontdekte dat de redenering van V4-Pro ongeveer drie tot zes maanden achterloopt op die modellen, en drukte deze toch af.

Waar V4-Pro-Max daadwerkelijk wint: Codeforces, een competitieve programmeerbenchmark, beoordeeld als menselijk schaak. V4-Pro scoorde 3.206, waarmee het op de 23e plaats kwam onder de daadwerkelijke deelnemers aan de menselijke wedstrijd. Op Apex Shortlist, een samengestelde reeks harde wiskunde- en STEM-problemen, scoorde het een slagingspercentage en haalde het 90,2%, vergeleken met Opus 4.6's 85,9% en GPT-5.4's 78,1%. Op SWE-Verified, dat meet of een model echte GitHub-problemen uit daadwerkelijke open-source repository's kan oplossen, scoorde het 80,6%, wat overeenkomt met Claude Opus 4.6.

Waar het eindigt: multitasking benchmark MMLU-Pro (Gemini-3.1-Pro op 91,0% versus V4-Pro op 87,5%), expertkennisbenchmark GPQA Diamond (Gemini 94.3 versus V4-Pro 90.1) en Humanity's Last Exam, een benchmark op graduate niveau waarbij de 44,4% van Gemini-3.1-Pro nog steeds beter is dan de 37,7% van V4-Pro.

Specifiek op lange termijn heeft V4-Pro de leiding over open-sourcemodellen en verslaat het Gemini-3.1-Pro op de CorpusQA-benchmark (een test die echte documentanalyse simuleert met een miljoen tokens), maar verliest van Claude Opus 4.6 op MRCR – een test die meet hoe goed een model specifieke naalden terughaalt die diep in een zeer lange hooiberg zijn begraven.

Gebouwd om agenten te runnen, niet alleen om vragen te beantwoorden. In deze release wordt deze release interessant voor ontwikkelaars die daadwerkelijk producten verzenden.

V4-Pro kan worden uitgevoerd in Claude Code, OpenCode en andere AI-coderingstools. Volgens het interne onderzoek van DeepSeek onder 85 ontwikkelaars die V4-Pro als hun primaire codeermiddel gebruikten, zei 52% dat het klaar was om hun standaardmodel te worden, neigde 39% naar 'ja' en zei minder dan 9% 'nee'. Interne medewerkers zeggen dat het beter presteert dan Claude Sonnet en benadert Claude Opus 4.5 voor agentische codeertaken.

Artificial Analysis, dat onafhankelijke evaluaties uitvoert van AI-modellen voor taken uit de echte wereld, plaatste V4-Pro op de eerste plaats van alle open-weight-modellen op GDPval-AA – een benchmark die economisch waardevol kenniswerk test voor financiële, juridische en onderzoekstaken, gescoord via Elo. V4-Pro-Max scoorde 1.554 Elo, vóór GLM-5.1 (1.535) en MiniMax's M2.7 (1.514). Ter referentie: Claude Opus 4.6 scoort 1.619 op dezelfde benchmark – nog steeds voorop, maar de kloof wordt kleiner.

DeepSeek V4 Pro is het #1 open gewichtsmodel op GDPval-AA, onze agentische real-world werktaken evaluatie@deepseek_ai heeft V4 Pro (1,6T totaal / 49B actief) en V4 Flash (284B totaal / 13B actief) uitgebracht. V4 is DeepSeeks eerste nieuwe maat sinds V3, met alle tussenliggende modellen… pic.twitter.com/2kJWVrKQjF

– Kunstmatige analyse (@ArtificialAnlys) 24 april 2026

Deepseeks V4 introduceert ook iets dat ‘interleaved thinking’ wordt genoemd. Als u in eerdere modellen een agent gebruikte die meerdere tooloproepen deed (bijvoorbeeld door op internet te zoeken, vervolgens wat code uit te voeren en vervolgens opnieuw te zoeken), werd de redeneringscontext van het model tussen de rondes doorgespoeld. Bij elke nieuwe stap moest het model zijn mentale model helemaal opnieuw opbouwen. V4 behoudt de volledige gedachtegang over alle tooloproepen, zodat een 20-staps workflow voor agenten halverwege geen last heeft van geheugenverlies. Dit is belangrijker dan het klinkt voor iedereen die complexe geautomatiseerde pijpleidingen beheert.

Deepseek en de AI-oorlog tussen de VS en China De VS beperken de export van high-end Nvidia-chips naar China sinds 2022. Het gestelde doel was om de Chinese AI-ontwikkeling te vertragen, maar het chipverbod hield DeepSeek niet tegen en zorgde er in plaats daarvan voor dat ze een efficiëntere architectuur uitvonden en het binnenlandse hardwareaanbod uitbreidden.

DeepSeek heeft V4 niet in een vacuüm uitgebracht - de AI-ruimte is de laatste tijd volop in beweging: Anthropic heeft Claude Opus 4.7 op 16 april uitgebracht - een model dat Decrypt heeft getest en sterk werd bevonden op het gebied van coderen en redeneren, met een opmerkelijk hoog tokengebruik. De dag daarvoor zat Anthropic ook op Claude Mythos, een cyberbeveiligingsmodel dat het naar eigen zeggen niet publiekelijk kan vrijgeven omdat het te goed is in autonome netwerkaanvallen.

Xiaomi liet MiMo V2.5 Pro op 22 april vallen en ging volledig multimodaal: beeld, audio, video. Kost $1 input en $3 output per miljoen tokens. Het komt overeen met Opus 4.6 op de meeste coderingsbenchmarks. Drie maanden geleden had niemand het over Xiaomi als een grensverleggend AI-bedrijf. Nu verzendt het concurrerende modellen sneller dan de meeste westerse laboratoria.

GPT-5.5 van OpenAI is gisteren geland, waarbij de kosten in de Pro-versie opliepen tot $180 per miljoen tokens aan output. Het verslaat V4-Pro op Terminal Bench 2.0 (82,7% versus 70,0%), dat complexe workflows voor opdrachtregelagenten test. Maar het kost aanzienlijk meer dan V4-Pro voor gelijkwaardige taken. Diezelfde dag bracht Tencent Hy3 uit, een ander state-of-the-art model gericht op efficiëntie.

Wat dit voor u betekent Omdat er zoveel nieuwe modellen beschikbaar zijn, stellen ontwikkelaars zich eigenlijk de vraag: wanneer is de premie de moeite waard?

Voor ondernemingen is de wiskunde misschien veranderd. Een model dat open source benchmarks aanvoert met $1,74 per miljoen inputtokens betekent dat grootschalige documentverwerking, juridische beoordeling of codegeneratiepijplijnen die zes maanden geleden duur waren, nu veel goedkoper zijn. De context van één miljoen tokens betekent dat u volledige codebases of registratiedossiers in één enkel verzoek kunt invoeren, in plaats van ze over meerdere oproepen te verdelen.

Bovendien betekent het open-source karakter ervan dat het niet alleen gratis op lokale hardware kan worden uitgevoerd, maar ook kan worden aangepast en verbeterd op basis van de behoeften en gebruiksscenario's van het bedrijf.

Voor ontwikkelaars en solobouwers is V4-Flash degene om naar te kijken. Met een input van $0,14 en een output van $0,28 is het goedkoper dan de modellen die een jaar geleden als budgetopties werden beschouwd - en het kan de meeste taken uitvoeren die de Pro-versie afhandelt. De bestaande deepseek-chat- en deepseek-reasoner-eindpunten van DeepSeek leiden al naar V4-Flash in respectievelijk de niet-denkende en denkende modus, dus als je de API gebruikt, gebruik je deze al.

De modellen zijn voorlopig alleen tekst. DeepSeek zei dat het werkt aan multimodale mogelijkheden, wat betekent dat andere grote laboratoria, van Xiaomi tot OpenAI, nog steeds die voorsprong hebben. Beide modellen hebben een MIT-licentie en zijn vandaag beschikbaar op Hugging Face. De oude deepseek-chat- en deepseek-reasoner-eindpunten verdwijnen op 24 juli 2026.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Amazon Web Services Marketplace voegt Chainlink Crypto Oracle Services toe Google gaat tot $40 miljard investeren in Anthropic, zowel cash als compute →