Anthropic verontschuldigt zich voor Claude Fable 5 geheime censuur, maar de oplossing heeft een addertje onder het gras

Default Door Remote - 11 Jun 2026

In het kort

Anthropic gaf toe dat zijn onzichtbare waarborgen voor de LLM-ontwikkeling “de verkeerde afweging” waren en zal deze vanaf deze week vervangen door zichtbare terugvallen op Claude Opus 4.8.

Gemarkeerde verzoeken op de API zullen nu een reden voor hun weigering retourneren, in plaats van stilletjes een slecht antwoord te geven.

Door de beveiligingen zichtbaar te maken, is het gemakkelijker om er omheen te werken.

Anthropic was ongeveer 48 uur de schurk van de week in de AI-industrie voordat hij met zijn ogen knipperde.

Het bedrijf lanceerde deze week Claude Fable 5 als reactie op een beveiligingsmaatregel die verborgen zat in de 319 pagina's tellende systeemkaart: het model, het eerste van de nieuwe Mythos-klasse van het bedrijf, zou in het geheim zijn eigen reacties verlagen voor gebruikers waarvan het vermoedde dat ze concurrerende AI-modellen bouwden - geen waarschuwing, geen terugvalbericht, alleen stilletjes slechtere resultaten. Donderdag bood Anthropic zijn excuses aan.

We voeren wijzigingen door om de waarborgen van Fable 5 voor grensverleggende LLM-ontwikkeling zichtbaar te maken.

Vanaf deze week zullen gemarkeerde verzoeken zichtbaar terugvallen op Opus 4.8 – hetzelfde als onze waarborgen voor cyber en bio. Je zult dit elke keer zien als het gebeurt. Op de API kan elke gemarkeerde...

— ClaudeDevs (@ClaudeDevs) 11 juni 2026

“Onzichtbare beveiligingen kunnen gerichter worden ingezet, waardoor we snel kunnen leveren met zeer weinig valse positieven. Om deze reden hebben we voor onzichtbare beveiligingen gekozen – en dat was de verkeerde afweging,” schreef het bedrijf op X. “Je zou inzicht moeten hebben in de beveiligingen die we hebben ingevoerd, en waarom.”

“Het spijt ons dat we de balans niet goed hebben gevonden.”

Vanaf deze week zullen gemarkeerde verzoeken zichtbaar doorsturen naar Claude Opus 4.8, een minder capabel model, in plaats van stilletjes verslechterde Fable-uitvoer te leveren. API-gebruikers krijgen een gemotiveerde reden als een verzoek wordt geweigerd. Anthropic zegt dat fallback-meldingen op de server de komende dagen zullen worden uitgerold.

Wat er feitelijk gebeurdeVoor niet-technische lezers: dit is waar de controverse eigenlijk over ging. Claude Fable 5 had al zichtbare waarborgen voor onderzoek op het gebied van cyberbeveiliging en biologie. Als je iets vroeg waardoor de filters werden geactiveerd, kreeg je een melding dat je verzoek werd omgeleid naar het oudere Opus 4.8-model. Je wist dat er iets was veranderd. U kunt uw prompt aanpassen of een ander hulpmiddel gebruiken.

Deze waarborgen waren echter te extreem, merkten sommige bioonderzoekers op.

De LLM-ontwikkelingswaarborg werkte echter anders. Als Fable 5 zou detecteren dat je bezig bent met zaken als het vooraf trainen van AI-systemen, het bouwen van een gedistribueerde trainingsinfrastructuur of het ontwerpen van machine learning-chips, zou het model in stilte zijn eigen gedrag veranderen – door middel van snelle aanpassingen, stuurvectoren of parameteraanpassingen – om je een slechter antwoord te geven zonder het je te vertellen. Je zou een reactie krijgen. Het zou gewoon niet van de Fable 5 zijn waarvoor je hebt betaald.

Fable 5 wordt aangekondigd als het publieke gezicht van Anthropic's meest capabele Mythos-klasse-model, en onderzoekers die het gebruikten voor legitiem machine learning-werk konden niet weten dat hun resultaten besmet waren. Een mislukt experiment ziet er hetzelfde uit, ongeacht of uw hypothese verkeerd is of of het model stilletjes te horen kreeg dat het ondermaats moest presteren. Dat is het reproduceerbaarheidsprobleem dat de AI-onderzoeksgemeenschap in een volledige meltdown-modus heeft gebracht.

Het probleem was dat de classificatie niet zo nauwkeurig was. AI-onderzoeksbureau SemiAnalysis was een van de eersten die ze publiekelijk opriepen nadat ze zagen dat hun GPU-inferentieonderzoek werd gemarkeerd.

BREAKING NEWS: Het nieuwste model van Anthropic zal je NIET helpen als het denkt dat jouw ML-onderzoek/ML-engineering interessant is, en/of in het geheim zijn IQ zal verlagen, zodat de gemiddelde ingenieur het niet zal merken. We zien al dat de moderatie van Anthropic's nieuwste model onze GPU filtert... pic.twitter.com/9sa95cCSvS

— SemiAnalysis (@SemiAnalysis_) 9 juni 2026

Het addertje onder het gras bij de omkering van de fix Anthropic gaat gepaard met een directe erkenning van de afweging die het accepteert. Door waarborgen zichtbaar te maken, kunnen ze gemakkelijker worden omzeild, wat betekent dat de classificator een breder net moet uitwerpen om effectief te blijven.

Terwijl het bedrijf zijn systemen aanpast, komen er steeds meer valse positieven – legitiem machine-learning-werk dat wordt onderschept en omgeleid. Anthropic zei dat het eraan werkt om valse positieven “zo snel mogelijk” te verminderen, maar gaf geen tijdlijn.

Het bedrijf past dezelfde opschoning ook toe op zijn biologie- en cyberbeveiligingsclassificatoren, die hun eigen klachten hadden geuit over het markeren van onschadelijke onderzoeksvragen.

Dat gezegd hebbende, is de resterende zorg dat Anthropic deze categorie beperkingen niet laat vallen, maar ze alleen zichtbaar maakt. Voor degenen die vinden dat de beperkingen zelf verkeerd zijn, is de verontschuldiging van donderdag een gedeeltelijke oplossing. Fable 5 blijft tot 22 juni gratis voor Pro-, Max-, Team- en Enterprise-abonnementen, waarna het overschakelt naar alleen API-gebruikskredieten

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Klokkenluider klaagt xAI van Elon Musk aan en beweert dat hij is ontslagen nadat hij bezorgdheid over de veiligheid van Grok had geuit Cryptoplatforms verbreden de toegang tot SpaceX van Elon Musk in de aanloop naar de beursintroductie van $ 1,75 biljoen →