Claude Opus 4.8 van Anthropic is er: betere AI-codering, slimmere veiligheid

Default Door Remote - 28 May 2026

In het kort

Anthropic heeft donderdag Claude Opus 4.8 uitgebracht, slechts zes weken na Opus 4.7.

De update biedt voordelen op het gebied van software-engineering, redeneren en computergebruikbenchmarks tegen dezelfde input/output-tokenprijs van $5/$25 per miljoen.

De uitlijningsscores van Opus 4.8 zijn nu vergelijkbaar met die van Claude Mythos Preview, het beperkte grensmodel van Anthropic, waarbij het percentage bedrieglijk of misbruikvriendelijk gedrag aanzienlijk lager is dan bij zijn voorganger.

Zes weken. Zo lang duurde het voordat Anthropic van Opus 4.7 naar Opus 4.8 ging.

Het nieuwe model is sneller en slimmer in benchmarktests en wordt geleverd met een reeks nieuwe functies, maar de prijs is niet veranderd: het zijn $ 5 per miljoen inputtokens en $ 25 per miljoen outputtokens, hetzelfde als voorheen.

Er is ook een snelle modus waarin hetzelfde model 2,5 keer zo snel draait voor $ 10 input en maar liefst $ 50 output per miljoen. Anthropic zegt dat het tarief nu drie keer goedkoper is dan wat de snelle modus kostte op eerdere modellen, wat een mooie manier is om te zeggen dat het voorheen veel duurder was.

SWE-bench Pro is waarschijnlijk de belangrijkste benchmark om naar te kijken en een idee te krijgen van hoe goed dit model is. Het meet of een AI daadwerkelijk harde, meertalige software-engineeringproblemen kan oplossen die zijn ontleend aan echte productiecodebases – gescoord als een percentage van de goedgekeurde problemen.

Bij die test behaalde Opus 4.8 69,2%, tegenover 64,3% voor Opus 4.7. OpenAI's GPT-5.5 scoorde 58,6% en Google's Gemini 3.1 Pro bleef achter op 54,2%. Voor een model voor dezelfde prijs is dat een betekenisvolle sprong.

Op het Laatste Examen van de Mensheid – vragen op expertniveau over tientallen academische disciplines, gescoord als een percentage correct – bereikte Opus 4.8 49,8% zonder hulpmiddelen en 57,9% met hulpmiddelen, vóór alle drie de rivalen. OSWorld-Verified, dat taken op het gebied van computergebruik in de echte wereld test, zoals het navigeren door software-UI's, kwam uit op 83,4% en kwam daarmee voorbij de score van Opus 4.7 van 82,8%.

Het enige verlies: Terminal-Bench 2.1, dat de AI-prestaties bij opdrachtregeltaken meet. GPT-5.5 leidt met 78,2%, terwijl Opus 4.8 74,6% scoort – beter dan de 66,1% van Opus 4.7 en vóór de 70,3% van Gemini, maar de tweede plaats verliest uiteindelijk nog steeds.

Vijf manieren om te denken Anthropic laat gebruikers nu bepalen hoe hard het model denkt. 'Hoog' is de standaardinstelling en verwerkt de meeste taken goed, terwijl 'Extra', in Claude Code 'xhigh' genoemd, meer rekenkracht besteedt aan moeilijkere problemen. "Max" is het diepe. Met 'Laag' en 'Gemiddeld' worden minder tokens aan dezelfde taak besteed, waardoor er wat tijd wordt bespaard in ruil voor nauwkeurigheid.

De inspanningscontrole bevindt zich naast de modelkiezer in claude.ai en Cowork, beschikbaar op alle abonnementen. Anthropic zegt dat standaard hoog grofweg dezelfde tokens gebruikt als de standaardwaarde van Opus 4.7, met betere resultaten – wat óf indrukwekkend technisch is, óf goede berichten, en waarschijnlijk beide.

Het is ook belangrijk om te onthouden dat de nieuwe tokenizer van Anthropic voor Opus meer tokens per taak gebruikt. Claude-gebruikers zullen dus onvermijdelijk veel meer geld moeten uitgeven om dingen voor elkaar te krijgen als ze Opus kiezen in plaats van Claude Sonnet – een minder capabel model, maar waarschijnlijk goed genoeg voor alledaagse taken en complexe problemen die niet het niveau van grenswetenschap of codering bereiken.

De tarieflimieten in Claude Code zijn ook verhoogd om de hogere tokenuitgaven op te vangen die de Extra- en Max-instellingen opleveren.

Bijna net zo veilig als het afstemmingsteam van Claude MythosAnthropic zei dat Opus 4.8 "nieuwe hoogtepunten bereikt op het gebied van onze metingen van prosociale eigenschappen, zoals het ondersteunen van de autonomie van de gebruiker en het handelen in het beste belang van de gebruiker." Meer concreet: de cijfers voor misleiding en samenwerking op het gebied van misbruik waren substantieel lager dan Opus 4.7, en vergelijkbaar met Claude Mythos Preview – het meest gesloten model van Anthropic.

Opus 4.8 heeft ook vier keer minder kans dan 4.7 om bugs in de eigen code voorbij te laten glijden zonder ze te markeren.

Die Mythos-vergelijking verdient context. Mythos staat volledig boven Opus. Anthropic beschrijft het als 'groter en intelligenter dan onze Opus-modellen'. Het bestaat momenteel alleen als een preview en is toegankelijk voor een handvol doorgelichte organisaties die cyberbeveiligingswerk doen via Project Glasswing.

Het Britse AI Security Institute heeft ontdekt dat het 'The Last Ones' autonoom kan voltooien, een 32-staps aanvalssimulatie op een bedrijfsnetwerk die menselijke rode teams normaal gesproken 20 uur kost. Daarom is hij nog niet te koop. Anthropic zegt dat er sterkere cyberbeveiligingsmaatregelen worden doorgevoerd en verwacht dat modellen van Mythos-klasse “in de komende weken” voor iedereen beschikbaar zullen zijn.

Vandaag ook verzonden: dynamische workflows in Claude Code, in onderzoekspreview. Met deze functie kan Claude zijn eigen orkestratiescripts schrijven en parallelle subagenten in één sessie opstarten, hun resultaten verifiëren en terugrapporteren, net zoals Hermes al een tijdje doet.

Dynamische workflows zijn beschikbaar voor gebruikers van het Enterprise-, Team- en Max-abonnement, en Anthropic is eerlijk dat ze aanzienlijk meer tokens verbranden dan een standaard Claude Code-sessie.

Het steeds groter wordende prijsverschil De prijsstelling van $5/$25 van Anthropic ziet er heel anders uit dan wat China de laatste tijd heeft gedaan.

DeepSeek V4 Pro heeft de korting van 75% vorige week permanent gemaakt: $0,435 per miljoen inputtokens en $0,87 per miljoen outputtokens. Xiaomi MiMo V2.5 Pro draait tegen dezelfde tarieven via providers als OpenRouter.

De snelle modus van Anthropic kost $10 input en $50 output per miljoen – duurder dan de standaard Opus 4.8 zelf, en ongeveer 57 keer meer per outputtoken dan DeepSeek V4 Pro. Bedrijven hebben al miljoenen dollars uitgegeven aan gevolgtrekkingen op Amerikaanse modellen. Ga los met Opus en uw onderneming kan vrij snel miljoenen dollars bereiken.

Het antwoord van Anthropic op het prijsverschil is kwaliteit en veiligheid. Op SWE-bench Pro verslaat Opus 4.8 beide Chinese modellen. Wat de afstemming betreft, komen geen van beide in de buurt van de gepubliceerde benchmarks van Anthropic.

Die dingen zijn van belang in productieomgevingen waar een model dat stilletjes samenwerkt met slechte input een reëel risico vormt: gereguleerde industrieën, juridisch werk en alles waar 'het prima leek' geen acceptabel rapport is na een incident. Voor alle anderen is de kloof moeilijk te negeren.

We hebben het getest. We hebben een snelle coderingstest uitgevoerd om een 3D-zombiespel te maken om te zien hoe Claude Opus 4.8 zich verhoudt tot ChatGPT en DeepSeek, misschien wel de populairste concurrenten uit de VS en China. We hebben Opus 4.8 standaard op hoog gezet, GPT-5.5 op hoge inspanning en DeepSeek V4 Pro op hoge inspanning: drie modellen, één prompt, geen nieuwe pogingen.

GPT-5.5 eindigde als eerste. De game had geen zombiebeelden en geen geluidseffecten. Het was zeker snel, maar het miste de opdracht volledig.

DeepSeek V4 Pro werd tweede met muisbewegingen, echte zombiekarakters, geluidseffecten, solide mechanica en een strakke esthetiek. Geen klachten daar.

Opus 4.8 duurde ongeveer drie keer zo lang als GPT-5.5, maar leverde het beste splash-scherm, de beste zombieontwerpen, de beste spelmechanismen en behoorlijke geluidseffecten. Het was de langzaamste, maar de beste output. Toch is dat waarschijnlijk niet genoeg om het gebruik ervan via DeepSeek te rechtvaardigen, gezien het kostenverschil.

Alle games zijn beschikbaar op ons Itch.io-profiel. GPT-5.5 genereerde Zombie Typing, Opus genereerde Typing Dead en DeepSeek v4 Pro genereerde een game zonder naam die je rechtstreeks in de actie meeneemt. Laten we het TypeSeek noemen.

Een volledig vergelijkend overzicht komt eraan. Voor nu: Claude Opus 4.8 codeert beter dan GPT-5.5 en Opus 4.7 voor dit soort taken, tegen dezelfde prijs die Anthropic sinds 4.7 in rekening heeft gebracht. Ontwikkelaars die al $5 per miljoen tokens betaalden, kregen zojuist gratis een beter model.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Bitwise weddenschappen Hyperliquid zou toekomstige financiering kunnen stimuleren naarmate HYPE ETF's aan kracht winnen Anthropic haalt $65 miljard op, wat bijna $1 biljoen waard is voorafgaand aan de beursintroductie →

Claude Opus 4.8 van Anthropic is er: betere AI-codering, slimmere veiligheid – dezelfde enorme prijs