Default
Door Remote - 04 May 2026
In het kort
CAISI's evaluatie plaatste DeepSeek V4 Pro acht maanden achter op de Amerikaanse grens, met behulp van een op IRT gebaseerd scoresysteem voor negen benchmarks, waaronder twee particuliere, niet-verifieerbare datasets.
Bij de kostenvergelijking werden alle Amerikaanse modellen uitgesloten die als te duur of te zwak werden beschouwd, waardoor alleen GPT-5.4 mini overbleef, waartegen DeepSeek nog steeds goedkoper was op vijf van de zeven benchmarks.
Uit de AI Index van Stanford uit 2026 bleek dat de prestatiekloof tussen de VS en China op de publieke ranglijsten was ingestort tot 2,7%.
Een Amerikaans overheidsinstituut publiceerde zijn oordeel over de krachtigste AI van China: acht maanden vertraging, en hoe meer tijd verstrijkt, hoe groter de kloof wordt. Het internet las de methodiek en begon vragen te stellen.
CAISI – het Center for AI Standards and Innovation, een eenheid binnen NIST – heeft op 1 mei zijn evaluatie van DeepSeek V4 Pro vrijgegeven. De conclusie: het open-gewicht vlaggenschip van DeepSeek "blijft ongeveer acht maanden achter op de grens."
CAISI noemt het ook het meest capabele Chinese AI-model dat het tot nu toe heeft geëvalueerd.
Het scoresysteemCAISI berekent geen gemiddelde benchmarkscores zoals de meeste beoordelaars doen. In plaats daarvan past het de Item Response Theory toe – een statistische methode uit gestandaardiseerd testen – om de latente mogelijkheden van elk model te schatten door bij te houden welke problemen het oplost en welke niet, aan de hand van negen benchmarks in vijf domeinen: cyberbeveiliging, software-engineering, natuurwetenschappen, abstract redeneren en wiskunde.
De IRT-geschatte Elo-scores: GPT-5,5 op 1.260 punten, Anthropic's Claude Opus 4.6 op 999. DeepSeek V4 Pro scoort rond de 800 (±28), wat zeer dicht bij GPT-5.4 mini is met 749. In CAISI's systeem zit DeepSeek dichter bij de oude generatie GPT mini dan bij Opus.
Het puntensysteem in benchmarks modelleert de manier waarop gestandaardiseerde tests studenten scoren – niet op basis van het ruwe percentage correct, maar door te wegen welke problemen ze oplossen en welke ze missen, waardoor een puntenschatting ontstaat die alleen iets betekent in vergelijking met andere modellen in dezelfde evaluatie. Hoe meer punten, hoe beter het model in algemene termen is, waarbij de score van het beste model het referentiepunt wordt om te zien hoe capabel een model is.
Het is onmogelijk om de resultaten van CAISI te reproduceren omdat twee van de negen benchmarks niet openbaar zijn, en in die twee benchmarks is de kloof het grootst. GPT-5.5 scoorde bijvoorbeeld 71% op CTF-Archive-Diamond, een van CAISI's cyberbeveiligingstests, waarbij DeepSeek ongeveer 32% registreerde.
Op publieke benchmarks verandert het beeld. GPQA-Diamond – wetenschappelijk redeneren op PhD-niveau, gescoord als percentage correct – plaatste DeepSeek op 90%, één punt achter de 91% van Opus 4.6. Wiskundeolympiadebenchmarks (OTIS-AIME-2025, PUMaC 2024, SMT 2025) schatten DeepSeek op 97%, 96% en 96%. Op basis van SWE-Bench Verified (echte GitHub-bugfixes, gescoord als percentage opgelost) scoorde DeepSeek 74%, tegenover 81% van GPT-5.5. DeepSeeks eigen technische rapport beweert dat V4 Pro overeenkomt met Opus 4.6 en GPT-5.4.
Voor kostenvergelijking filterde CAISI elk Amerikaans model eruit dat aanzienlijk slechter presteerde of aanzienlijk meer kostte per token dan DeepSeek. Slechts één model overtrof de lat: GPT-5.4 mini. Dat is de hele Amerikaanse grens, gefilterd op één enkele vermelding.
DeepSeek kwam goedkoper uit op 5 van de 7 benchmarks en versloeg zelfs het kleinste en minst capabele AI-model van OpenAI.
Het tegenargument: is de kloof groter of kleiner? Het bekritiseren van CAISI's methodologie rechtvaardigt DeepSeek niet volledig. De AI-ontwikkelaar onder het pseudoniem Ex0bit duwde direct terug: "Er is geen 'gat', en niemand loopt acht maanden achter. We zijn bij elke gesloten Amerikaanse daling bedrogen en met open gewichten verder gebogen."
Er is geen ‘gat’ en niemand loopt acht maanden achter. We zijn bij elke gesloten Amerikaanse drop belaagd en met open gewichten verder gebogen. https://t.co/dhbDb43b6P pic.twitter.com/kl0kAecmyO
— Eric (@Ex0byt) 2 mei 2026
De Artificial Analysis Intelligence Index v4.0 – een beoordelingssysteem dat de intelligentie van grensmodellen volgt in tien evaluaties – toont OpenAI bijna 60 punten en DeepSeek in de lage jaren 50 vanaf mei 2026, veel strakker gecomprimeerd dan een jaar geleden.
Op basis van gestandaardiseerde benchmarks laat hun methodologie zien dat de kloof feitelijk kleiner wordt.
Toen DeepSeek in januari 2025 voor het eerst opdook, was de vraag of China zijn achterstand al had ingehaald. Amerikaanse laboratoria haastten zich om te reageren. De AI Index van Stanford voor 2026 – gepubliceerd op 13 april – meldt dat de kloof op het Arena-leiderschap tussen Claude Opus 4.6 en de Chinese Dola-Seed-2.0 Preview kleiner wordt, met een verschil van slechts 2,7%.
CAISI is van plan in de nabije toekomst een vollediger IRT-methodologieverslag uit te brengen.
Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!
CAISI's evaluatie plaatste DeepSeek V4 Pro acht maanden achter op de Amerikaanse grens, met behulp van een op IRT gebaseerd scoresysteem voor negen benchmarks, waaronder twee particuliere, niet-verifieerbare datasets.
Bij de kostenvergelijking werden alle Amerikaanse modellen uitgesloten die als te duur of te zwak werden beschouwd, waardoor alleen GPT-5.4 mini overbleef, waartegen DeepSeek nog steeds goedkoper was op vijf van de zeven benchmarks.
Uit de AI Index van Stanford uit 2026 bleek dat de prestatiekloof tussen de VS en China op de publieke ranglijsten was ingestort tot 2,7%.
Een Amerikaans overheidsinstituut publiceerde zijn oordeel over de krachtigste AI van China: acht maanden vertraging, en hoe meer tijd verstrijkt, hoe groter de kloof wordt. Het internet las de methodiek en begon vragen te stellen.
CAISI – het Center for AI Standards and Innovation, een eenheid binnen NIST – heeft op 1 mei zijn evaluatie van DeepSeek V4 Pro vrijgegeven. De conclusie: het open-gewicht vlaggenschip van DeepSeek "blijft ongeveer acht maanden achter op de grens."
CAISI noemt het ook het meest capabele Chinese AI-model dat het tot nu toe heeft geëvalueerd.
Het scoresysteemCAISI berekent geen gemiddelde benchmarkscores zoals de meeste beoordelaars doen. In plaats daarvan past het de Item Response Theory toe – een statistische methode uit gestandaardiseerd testen – om de latente mogelijkheden van elk model te schatten door bij te houden welke problemen het oplost en welke niet, aan de hand van negen benchmarks in vijf domeinen: cyberbeveiliging, software-engineering, natuurwetenschappen, abstract redeneren en wiskunde.
De IRT-geschatte Elo-scores: GPT-5,5 op 1.260 punten, Anthropic's Claude Opus 4.6 op 999. DeepSeek V4 Pro scoort rond de 800 (±28), wat zeer dicht bij GPT-5.4 mini is met 749. In CAISI's systeem zit DeepSeek dichter bij de oude generatie GPT mini dan bij Opus.
Het puntensysteem in benchmarks modelleert de manier waarop gestandaardiseerde tests studenten scoren – niet op basis van het ruwe percentage correct, maar door te wegen welke problemen ze oplossen en welke ze missen, waardoor een puntenschatting ontstaat die alleen iets betekent in vergelijking met andere modellen in dezelfde evaluatie. Hoe meer punten, hoe beter het model in algemene termen is, waarbij de score van het beste model het referentiepunt wordt om te zien hoe capabel een model is.
Het is onmogelijk om de resultaten van CAISI te reproduceren omdat twee van de negen benchmarks niet openbaar zijn, en in die twee benchmarks is de kloof het grootst. GPT-5.5 scoorde bijvoorbeeld 71% op CTF-Archive-Diamond, een van CAISI's cyberbeveiligingstests, waarbij DeepSeek ongeveer 32% registreerde.
Op publieke benchmarks verandert het beeld. GPQA-Diamond – wetenschappelijk redeneren op PhD-niveau, gescoord als percentage correct – plaatste DeepSeek op 90%, één punt achter de 91% van Opus 4.6. Wiskundeolympiadebenchmarks (OTIS-AIME-2025, PUMaC 2024, SMT 2025) schatten DeepSeek op 97%, 96% en 96%. Op basis van SWE-Bench Verified (echte GitHub-bugfixes, gescoord als percentage opgelost) scoorde DeepSeek 74%, tegenover 81% van GPT-5.5. DeepSeeks eigen technische rapport beweert dat V4 Pro overeenkomt met Opus 4.6 en GPT-5.4.
Voor kostenvergelijking filterde CAISI elk Amerikaans model eruit dat aanzienlijk slechter presteerde of aanzienlijk meer kostte per token dan DeepSeek. Slechts één model overtrof de lat: GPT-5.4 mini. Dat is de hele Amerikaanse grens, gefilterd op één enkele vermelding.
DeepSeek kwam goedkoper uit op 5 van de 7 benchmarks en versloeg zelfs het kleinste en minst capabele AI-model van OpenAI.
Het tegenargument: is de kloof groter of kleiner? Het bekritiseren van CAISI's methodologie rechtvaardigt DeepSeek niet volledig. De AI-ontwikkelaar onder het pseudoniem Ex0bit duwde direct terug: "Er is geen 'gat', en niemand loopt acht maanden achter. We zijn bij elke gesloten Amerikaanse daling bedrogen en met open gewichten verder gebogen."
Er is geen ‘gat’ en niemand loopt acht maanden achter. We zijn bij elke gesloten Amerikaanse drop belaagd en met open gewichten verder gebogen. https://t.co/dhbDb43b6P pic.twitter.com/kl0kAecmyO
— Eric (@Ex0byt) 2 mei 2026
De Artificial Analysis Intelligence Index v4.0 – een beoordelingssysteem dat de intelligentie van grensmodellen volgt in tien evaluaties – toont OpenAI bijna 60 punten en DeepSeek in de lage jaren 50 vanaf mei 2026, veel strakker gecomprimeerd dan een jaar geleden.
Op basis van gestandaardiseerde benchmarks laat hun methodologie zien dat de kloof feitelijk kleiner wordt.
Toen DeepSeek in januari 2025 voor het eerst opdook, was de vraag of China zijn achterstand al had ingehaald. Amerikaanse laboratoria haastten zich om te reageren. De AI Index van Stanford voor 2026 – gepubliceerd op 13 april – meldt dat de kloof op het Arena-leiderschap tussen Claude Opus 4.6 en de Chinese Dola-Seed-2.0 Preview kleiner wordt, met een verschil van slechts 2,7%.
CAISI is van plan in de nabije toekomst een vollediger IRT-methodologieverslag uit te brengen.
Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

