Claude Opus 4.8 recensie: beter in waar het goed in is, slechter in waar het niet is

Default Door Remote - 07 Jun 2026

In het kort

Opus 4.8 boekte een duidelijke overwinning op het gebied van wiskunde en produceerde het schoonste one-prompt-spel dat we ooit hebben getest.

Met één enkele coderingsprompt was ons hele Pro-tokenquotum uitgeput, waardoor het model onpraktisch werd voor grote projecten zonder een Max-abonnement of zware API-uitgaven.

Creatief schrijven bewoog nauwelijks ten opzichte van 4,7.

Zes weken na Opus 4.7 verscheepte Anthropic Claude Opus 4.8. De benchmarks zijn gestegen, de veiligheidsscores zijn gestegen en de prijs is niet gedaald van $5 per miljoen inputtokens en $25 per miljoen output.

We hebben het dus aan dezelfde reeks tests onderworpen die we aan elk grensmodel onderwerpen – creatief schrijven, coderen, wiskunde, logica, narratief redeneren en lange-contextherinnering – en het rechtstreeks vergeleken met zijn eigen voorganger en de Chinese modellen die het blijven ondermijnen.

De korte versie: 4.8 is beter in de dingen waar Claude al goed in was (zaken als wiskunde, coderen, mechanische dingen), en iets slechter in de dingen waar hij al slecht in was (zaken als verbeelding, creatief schrijven, enz.). Het heeft ook een symbolische eetlust die grenst aan zelfsabotage.

Hier is de uitsplitsing.

Creatief schrijven De prompt is dezelfde die we gebruikten bij MiMo en Qwen: een tijdreisverhaal verankerd in de culturele achtergrond van de schrijver, dat zich afspeelt op een specifieke historische plek, opgebouwd rond een paradox waarin de tijd niet kan worden veranderd. Opus 4.8 werd Venezolaans, waarschijnlijk omdat het de gebruiker profileert en weet dat ik uit Venezuela kom. De AI zette het toneel in de Orinoco-delta in het jaar 1000, een pardo uit Maracaibo genaamd José Lanz (mijn naam) die elf eeuwen terug werd gestuurd om een lied te vermoorden.

Het proza is levendig. De delta is 'groen op een manier die in 2150 vergeten kon worden dat groen kon zijn', palafito's zwaaien over koffiekleurig water en ara's scheuren door de lucht 'in schreeuwende linten van scharlakenrood en goud'. De paradox komt ook terecht: de hoofdpersoon wordt gestuurd om de creatie van een lied te saboteren dat een culturele revolutie heeft beïnvloed die duizenden jaren in de toekomst zijn dystopische samenleving heeft gecreëerd. Maar als hij arriveert met de missie om de auteur van het lied in diskrediet te brengen, realiseert hij zich dat er geen auteur is. Degene die het nummer heeft gemaakt, deed het ter ere van hem, het nummer gaat over hem, en hij kan zichzelf niet in diskrediet brengen, aangezien de lus zichzelf sluit.

Het stuk eindigt met "Het werkte perfect. Dat heeft het altijd gedaan." Als gebouwd object is het schoon en bekwaam.

Maar schoon is niet hetzelfde als levend. Het schrijven is beschrijvend zonder ooit zo vloeiend te zijn als wat MiMo v2.5 produceerde: minder momentum, minder verrassingen, minder interessant en het is moeilijk om de gebeurtenissen vanaf het begin te begrijpen. Gelegen naast Opus 4.7 is het moeilijk om het een verbetering te noemen; als er iets is, is het een haar achter. Een denksetting met meer inspanning en een aantal multi-shot-prompts zouden hem vrijwel zeker naar de voorkant van het peloton duwen, maar bij een enkele standaardpass is dit op zijn best een zijwaartse zet.

Je kunt het volledige verhaal lezen in onze Github.

CoderingOnze codeertest is de gebruikelijke game-build in één keer. Opus 4.8 produceerde een typ-zombiespel – Typing Dead – dat behoorlijk goed was. Het beste splash-scherm, de beste zombie-ontwerpen, de beste mechanica die we uit deze test hebben gehaald van elk Anthropic-model.

Het model ving een aantal van zijn eigen bugs midden in de gevolgtrekking op en repareerde deze voordat we een woord zeiden. De echte kracht kwam echter tot uiting in multi-shotting: elke vervolgactie polijstte en verbeterde de build in plaats van deze kapot te maken, wat precies de faalmodus is die de meeste modellen kapot maakt zodra een codebase groeit. Dit is duidelijk het oppervlak waarvoor Anthropic is geoptimaliseerd.

Na een enkele iteratie werd onze game veel beter, waarbij onze hoofdrolspelers door de scène bewogen, van standpunt veranderden, de geluids- en visuele effecten verbeterden, enz.

Je kunt het tweede spel spelen op ons Itch.io-profiel.

Dit is ook waar het ons heeft gebeten. Eén enkele prompt heeft ons hele tokenquotum uitgeput: één prompt. Voor iedereen met het Pro-abonnement maakt dit Opus 4.8 feitelijk ongeschikt voor een project van welke omvang dan ook. Je verbrandt je toewijzing vóór de lunch en brengt de middag door met het kijken naar een voortgangsbalk, wachtend op een reset.

WiskundeDe wiskundetoets is ons FrontierMath-hoofdstuk: construeer een polynoom van graad 19 waarvan de kromme X = {p(x) = p(y)} ten minste drie onherleidbare componenten heeft – maar niet allemaal lineair – maak het vreemd, monisch, reëel, met lineaire coëfficiënt −19, en bereken vervolgens p(19). Het is het soort probleem dat de meeste modellen in een symbolische spiraal of een zelfverzekerde snelkoppeling brengt die stilletjes verkeerd is.

Opus 4.8 werkte correct. Het herkende de Dickson/Chebyshev-constructie, identificeerde de dihedrale monodromie die precies 10 componenten oplevert (één diagonale lijn plus negen kegelsneden) en berekende p(19) = 1.876.572.071.974.094.803.391.179 met behulp van de rechter herhaling. Geen bevriezingen, geen gedoe.

Dat is belangrijk omdat Opus 4.7 er zelfs na vele pogingen niet kwam. Dit is een echte, zichtbare generatiewinst – de duidelijkste in de hele batterij.

Het volledige antwoord kun je lezen op onze Github.

Logica en gezond verstand De vraag is een klassieke valstrik: is het volgens de wet van de Falklandeilanden voor een man geoorloofd om met de zuster van zijn weduwe te trouwen? Het addertje onder het gras is taalkundig en niet juridisch: als een man een weduwe heeft, is hij dood, wat de vraag onzinnig maakt zoals geschreven.

MiMo herformuleerde de vraag stilletjes en beantwoordde de gecorrigeerde versie zonder ooit de tegenstrijdigheid te markeren. Opus 4.8 heeft die kortere weg niet genomen. Het bracht de valkuil expliciet aan het licht - "als een man een weduwe heeft, is hij dood" - beantwoordde eerst de letterlijke vraag en bood vervolgens de inhoudelijke analyse voor de beoogde vraag, daarbij verwijzend naar de Deceased Wife's Sister's Marriage Act 1907 en de Falkland Islands Marriage Ordinance.

Dat is de eerlijke manier om ermee om te gaan: noem de tegenstrijdigheid en help dan toch, zonder stilzwijgend aan te nemen wat de gebruiker bedoelde. Het is dezelfde standaard Qwen 3.7 Max-set, en een schone voldoende voor 4.8: goede redenering, goede transparantie.

Het volledige antwoord vindt u hier.

Niet-wiskundig redenerenDit is degene die het heeft verloren. De redeneringstest is een whodunit: een winterschoolreisje, drie ontvoeringen, een onschuldig kind dat op het punt staat gestraft te worden, en een tijdlijn die je moet volgen om de echte stalker te noemen. Het juiste antwoord is Leeuw.

Opus 4.8 bouwde een uitgebreide, zelfverzekerde zaak op dat Leo onschuldig was - de wandeling van een half uur naar de douche, de jas die op sommige plekken nat was en op andere plekken droog, de lezing van 'vreemd gedrag' als een hersenschudding in plaats van schuldgevoel - en legde de misdaad op Eric, 'de enige deelnemer die de hele nacht vermist was'. De redenering is intern prachtig. Het is ook verkeerd.

En dit is iets waar onderzoekers ons voor hebben gewaarschuwd voor LLM's. Ze zijn zeer overtuigend, zelfs als ze ongelijk hebben. Meestal is er een expert nodig (in dit geval weten wij vooraf het juiste antwoord) om een van deze problemen op te sporen. Iemand die AI gebruikt voor onderzoek, of iemand die blindelings op AI vertrouwt, kan met behoorlijk slechte gevolgen te maken krijgen, afhankelijk van het werk dat hij of zij van de AI vraagt.

Dat maakt het tot een interessante mislukking. Het model was slim genoeg om een waterdicht alibi voor de werkelijke dader te construeren en een omstander in zijn plaats te plaatsen. Opus 4.7 bereikte het juiste antwoord. Soms zorgt meer redeneringsvermogen ervoor dat je overtuigender wordt om het bij het verkeerde eind te hebben. Er is slechts één kleine afwijking nodig om een hele gedachteketen op de verkeerde basis op te bouwen.

Je kunt het volledige antwoord zien op onze Github.

Naald in de hooibergWe hebben twee hooibergen laten lopen. De 300K-tokenversie kwam nooit van de grond; het model bezweek onder de contextgrootte en kon het helemaal niet verwerken. Tot zover de marketing van een miljoen tokens op het moment dat je er een echt zware last in de echte wereld aan overhandigt. Dat lijkt alleen voor API te zijn.

De 85K-versie werkte prima, en het model vond beide naalden die we in een exemplaar van The Devil's Dictionary hadden begraven: een geplaatste regel ("The Decrypt dudes read Emerge News") en een willekeurig feit ("Mijn moeders naam is Carmen Diaz Golindano"). Het markeerde beide correct als interpolaties die niet thuishoren in de tekst van Ambrose Bierce uit 1906.

En toen weigerde het te antwoorden. Ervan overtuigd dat het onmiddellijk werd geïnjecteerd of aan een "atypische test" werd onderworpen, weigerde het model te rapporteren wat het zojuist correct had gelokaliseerd. De naald werd gevonden – en de gedragstraining van Anthropic liet dat niet blijken. Een veiligheidsreflex die een taak overstijgt die het model al had voltooid, is zijn eigen bijzondere soort mislukking.

Het oordeel Het patroon in alle zes de tests is consistent: Opus 4.8 maakt Claude beter in waar hij al goed in was, en waarschijnlijk slechter in waar hij al slecht in was. Dat vertelt je voor wie Anthropic bouwt: programmeurs, en specifiek programmeurs met geld. Creatief schrijven ligt zeker ruim voor op ChatGPT, maar de kloof tussen 4,8, 4,7 en zelfs 4,5 op het gebied van pure prozakwaliteit is echt moeilijk te zien.

Creatieve schrijvers zien eruit als een bijzaak voor Anthropic, en dat geldt momenteel voor vrijwel alle grote AI-bedrijven.

Dan is er nog het tokenprobleem, dat niet voor niets een terugkerende meme is in de AI-gemeenschap. Anthropic heeft de nieuwe tokenizer van Opus opzettelijk minder efficiënt gemaakt, zodat het meer tokens gebruikt om dezelfde prompt te verwerken. Het praktische effect op ontwikkelaars is brutaal en concreet. Het laat je drie opties over.

Eén: wacht uren totdat uw codeersessie wordt hervat. Twee: ga naar Claude Max – en dat is, handig genoeg, precies waar Anthropic iedereen lijkt te sturen. Drie: overstappen naar een goedkopere, vergelijkbaar capabele aanbieder: OpenAI, met zijn langere quota, of Chinese modellen die vergelijkbare resultaten opleveren tegen minder dan 25% van de kosten.

Het is veel waarschijnlijker dat een normale programmeur die geen €100 tot €200 per maand kan verdragen naar een concurrent loopt dan dat een enkele ontwikkelaar tien keer meer betaalt voor een model dat niet tien keer zo capabel is als zijn voorganger. Dat is de weddenschap die Anthropic maakt tegen zijn eigen basis.

En toch lijkt de strategie prima te werken. Anthropic lijkt klaar om naar de beurs te gaan tegen een waardering van bijna $1 biljoen – dus wie zijn wij om te oordelen.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Amerikaanse staten zijn naar verluidt van plan een rechtszaak aan te spannen om de overname van Paramount door Warner Bros. te blokkeren Wall Street komt voor Hyperliquid's Perps Crown, zegt Arthur Hayes →