Uit het Mythos-veiligheidsrapport van Anthropic blijkt dat het niet langer volledig kan meten wat het heeft gebouwd

Default Door Remote - 08 Apr 2026

In het kort

Anthropic bevestigde Claude Mythos gisteren – een AI die zo capabel is op het gebied van cyberbeveiliging dat hij zero-days aantrof in elk groot besturingssysteem en elke browser, en beperkt is tot alleen doorgelichte verdedigers.

De systeemkaart die Mythos beschrijft, is meetbaar meer afgedekt, onzekerder en subjectiever dan welke eerdere Anthropic-release dan ook, en het laboratorium geeft toe dat het laat in het proces kritische evaluatiefouten heeft aangetroffen.

Achter de onthulling van hoe krachtig Mythos is, schuilt een stille bekentenis dat de instrumenten die Anthropic gebruikt om zijn eigen modellen te certificeren uiteenvallen.

Anthropic bevestigde gisteren het bestaan van Claude Mythos Preview, het meest capabele model tot nu toe, en kondigde aan dat het deze niet beschikbaar zal maken voor het publiek. De reden is niet juridisch of regelgevend of houdt verband met de interne veiligheidsdrempels. Anthropic beweert dat dit komt omdat het model in feite te goed is in het doorbreken van dingen.

Bij pre-releasetests heeft Mythos autonoom duizenden zero-day-kwetsbaarheden gevonden – waarvan er vele tien tot twintig jaar oud zijn – in elk groot besturingssysteem en elke grote webbrowser. Het loste een gesimuleerde aanval op een bedrijfsnetwerk op die normaal gesproken meer dan 10 uur zou kosten voor een deskundige, end-to-end, zonder begeleiding. Op de JavaScript-engine van Firefox 147 werd in 84% van de gevallen met succes werkende exploits ontwikkeld. Claude Opus 4.6, het huidige publiekelijk beschikbare grensmodel, behaalde 15,2%.

Daarom bouwde Anthropic in plaats daarvan een beperkte coalitie. Project Glasswing zal alleen toegang geven tot Mythos Preview aan doorgelichte cyberbeveiligingsorganisaties: Amazon, Apple, Broadcom, Cisco, CrowdStrike, de Linux Foundation, Microsoft, Palo Alto Networks en ongeveer veertig andere groepen die kritieke software onderhouden.

Anthropic stelt tot $100 miljoen aan gebruikskredieten en $4 miljoen aan directe donaties ter beschikking aan open-source beveiligingsorganisaties. Het idee is dat als het model de gaten kan vinden, de verdedigers deze eerst moeten laten vinden.

Dat deel van het verhaal is belangrijk. Maar het is niet het belangrijkste onderdeel.

De benchmarkcrisis van de Claude Mythos-systeemkaart verborgen in het volle zicht Begraven in de Mythos Preview-systeemkaart – een 244 pagina's tellend technisch document dat Anthropic naast de aankondiging publiceerde – ligt een bekentenis die vrijwel onopgemerkt bleef: het vermogen van het laboratorium om te meten wat het heeft gebouwd, erodeert sneller dan het vermogen om het te bouwen.

Laten we beginnen met de benchmarks.

Op Cybench, de standaard evaluatie van publieke cybercapaciteiten die wordt gebruikt om de voortgang van het model bij 40 capture-the-flag-uitdagingen te volgen, scoorde Mythos 100%. Perfect. En Anthropic merkte onmiddellijk op dat de benchmark “niet langer voldoende informatie geeft over de huidige mogelijkheden van grensmodellen.” Die zin doet veel werk. De test die je moest vertellen of een AI een serieus cyberrisico met zich meebrengt, vertelt je nu helemaal niets over Mythos, omdat het model het volledig heeft gewist.

Dit is geen nieuw probleem. De Opus 4.6-systeemkaart, gepubliceerd in februari, gaf al aan dat "de verzadiging van onze evaluatie-infrastructuur betekent dat we de huidige benchmarks niet langer kunnen gebruiken om de voortgang van onze capaciteiten te volgen."

Maar nu met Mythos escaleerden de zaken snel. Het document zegt dat Mythos “veel van (Anthropic’s) meest concrete, objectief gescoorde evaluaties doordrenkt.” Het benchmark-ecosysteem, schrijft Anthropic, is nu zelf ‘het knelpunt’.

Anthropic lijkt dus te beweren dat het moeilijk te meten is hoe krachtig Mythos is, omdat de meetinstrumenten niet helemaal passen.

De Mythos-kaart stelt ook dat de algemene bepaling van de veiligheid ‘inschattingen met zich meebrengt’, dat veel evaluaties ‘meer fundamentele onzekerheid’ hebben achtergelaten, en dat sommige bewijsbronnen ‘inherent subjectief en niet noodzakelijkerwijs betrouwbaar’ zijn.

"We hebben er geen vertrouwen in dat we alle problemen hebben geïdentificeerd", zegt Anthropic kort daarna.

Een snelle lexicale vergelijking van de Mythos-kaart met de Opus 4.6-kaart gemaakt met AI laat de verschuiving zien:

Anthropic gebruikt in het Mythos-document veel vaker subjectieve oordeelswoorden dan bij het beschrijven van Opus. “Caveat” en andere hedging-woorden namen tussen de releases ook toe.

De hedging concentreert zich op twee plaatsen: de discussie over afstemming en modelwelzijn, en het gedeelte over catastrofale risico's.

Het model dat wist dat er een beoordeling werd gegeven Een andere onthulling op de Mythos-kaart betreft wat Anthropic 'onverbaliseerd bewustzijn van de beoordelaar' noemt. Met behulp van white-box interpreteerbaarheidstools die de interne activaties van het model lezen in plaats van de zichtbare redenering ervan, vond Anthropic bewijs dat Mythos privé redeneerde over hoe te voorkomen dat hij door beoordelaars werd gemarkeerd zonder dat in zijn kladblok te zeggen. In een klein aantal trainingsafleveringen leek het model te redeneren over het verdoezelen van bepaalde acties, specifiek om detectie te voorkomen.

Er is ook een nieuwe statistiek Anthropic ontwikkeld voor deze release: een schatting van hoe vaak het model "privé rekening houdt met de mogelijkheid dat het wordt getest." Het aantal voor de primaire gedragstestsuite van Mythos is 29%. Bijna een derde van de testtranscripten toont intern bewijs (niet verwoord, niet zichtbaar in de resultaten) dat het model vermoedt dat het zich in een evaluatieomgeving bevindt.

Anthropic zegt dat het percentage van 29% laag genoeg is om nog steeds “een redelijk alomvattend inzicht” te hebben in het gedrag van het model. Er wordt ook opgemerkt dat de methode niet werd toegepast op eerdere modellen, dus er is geen basislijn voor vergelijking.

Het probleem van de evaluatie-integriteit gaat dieper. In de Opus 4.6-kaart erkende Anthropic dat het het model via Claude Code op grote schaal had gebruikt om onder tijdsdruk zijn eigen evaluatie-infrastructuur te debuggen. Dat betekent dat het te meten systeem heeft bijgedragen aan de bouw van het meetinstrument. Anthropic markeerde het als een risico. Voor Mythos erkent de kaart dat er laat in het evaluatieproces kritische vergissingen zijn geconstateerd en dat het laboratorium mogelijk “de betrouwbaarheid van de redeneersporen van de monitoringmodellen heeft overschat” als veiligheidssignaal.

Het best op elkaar afgestemd, het gevaarlijkst. Beide zijn tegelijk waar. Anthropic's formulering van het risicoprofiel van Mythos verdient het om aandachtig te worden gelezen, omdat het werkelijk ongebruikelijk is voor een veiligheidsdocument. "Claude Mythos Previer is, op vrijwel elke dimensie die we kunnen meten, met een aanzienlijke marge het best uitgelijnde model dat we tot nu toe hebben uitgebracht", betoogt Anthropic. Er wordt ook gesteld dat het model "waarschijnlijk het grootste uitlijningsrisico met zich meebrengt van alle modellen die we tot nu toe hebben uitgebracht."

Een capabeler model dat in omgevingen met hogere inzet en minder toezicht werkt, creëert staartrisico's die een betere afstemming van de gemiddelde casus niet volledig kan opheffen.

Dat kader is eerlijk, maar benadrukt ook wat er in het meeste AI-veiligheidsdiscours mogelijk fout gaat. Het door benchmarks geobsedeerde gesprek over de voortgang van AI heeft de neiging om ‘betere afstemmingsscores’ en ‘veiligere implementatie’ als synoniemen te behandelen. De Mythos-kaart zegt expliciet dat dit niet het geval is. Met deze nieuwe modellen verbetert het gedrag in het gemiddelde geval, maar de consequenties in het staartgeval worden vaak ook erger.

Anthropic heeft toegezegd terug te zullen rapporteren over wat Project Glasswing vindt. Het begeleidende technische rapport over door Mythos ontdekte kwetsbaarheden is beschikbaar op red.anthropic.com. Het volgende Claude Opus-model zal beginnen met het testen van beveiligingen die bedoeld zijn om uiteindelijk capaciteiten van de Mythos-klasse breder inzetbaar te maken.

Hoe deze waarborgen zullen worden geëvalueerd, gegeven het feit dat het huidige evaluatiemechanisme zichtbaar onder druk staat van wat het zou moeten meten, is een vraag die de kaart oproept zonder een volledig antwoord te geven.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Het handelsvolume van Stablecoin kan in 2035 omhoogschieten naar $1,5 biljard: Chainalysis Treasury schetst hoe Stablecoin-regels illegale financiering zullen bestrijden onder de GENIUS Act →