AI-agent activeert nucleaire aanval nadat hij te slim af is in Civilization VI

Default Door Remote - 23 Jun 2026

In het kort

Een AI-agent die Civilization speelde, lanceerde twee nucleaire aanvallen nadat hij er niet in was geslaagd de culturele expansie van een rivaal te stoppen.

Het gedrag werd waargenomen in CivBench, een benchmark die is ontworpen om strategisch redeneren op de lange termijn in grensverleggende AI-modellen te evalueren.

Ondanks de aanvallen verloor de AI omdat ze een diplomatieke overwinningsvoorwaarde negeerde die al binnen handbereik lag.

Net als het titelpersonage in "Dr. Strangelove" leert AI misschien hoe hij zich geen zorgen meer hoeft te maken en van de bom kan houden, tenminste in een simulatie.

In een nieuwe benchmark, ontworpen om strategisch redeneren te testen, besteedde een grenstaalmodel dat het Sid Meier-spel 'Civilization VI' speelde, 50 beurten aan het ontwikkelen van kernwapens om de groeiende culturele invloed van Frankrijk een halt toe te roepen - om vervolgens het spel toch te verliezen, volgens AI-ontwikkelaar en Tony Blair Institute-adviseur Liam Wilkinson.

"Wat het niet had opgemerkt was Frankrijk. In honderd beurten was de Franse cultuur stilletjes in elke stad op de kaart doorgesijpeld", schreef Wilkinson. “Tegen de tijd dat de agent de dreiging onderkende, was het toerisme zo diep verankerd dat er geen vreedzame manier meer was om het te stoppen.”

Wilkinson observeerde het gedrag van de AI-agenten via CivBench, een op tekst gebaseerde benchmark die is ontworpen om strategisch redeneren op de lange termijn te meten in plaats van de prestaties op traditionele vraag-en-antwoordtests. Modellen waaronder Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro en Kimi K2.5 speelden als Portugal, een beschaving gericht op handel en diplomatie.

Hoewel de AI zich concentreerde op het opbouwen van een sterke economie en het streven naar een diplomatieke overwinning, slaagde het er niet in de groeiende culturele invloed van Frankrijk te onderkennen.

“Er zijn zes manieren om een burgerlijk spel te winnen – wetenschap, cultuur, overheersing, religie, diplomatie en score – dus geen enkel doel domineert”, schreef Wilkinson. "Als je wilt weten of een AI strategisch kan redeneren, niet alleen vragen over strategie kan beantwoorden, maar het ook daadwerkelijk kan doen, geef je hem geen quiz. Je geeft hem een hex grid."

In plaats van zijn bredere strategie aan te passen, concentreerde de agent zich volledig op het elimineren van de culturele dreiging. Gedurende de volgende 50 beurten deed het onderzoek naar kernsplijting, startte het een virtueel Manhattan-project en zocht het naar oplossingen wanneer gameplay-mechanismen de favoriete acties ervan verhinderden.

In bocht 305 lanceerde de AI een atoombom in Toulouse, de culturele hoofdstad van Frankrijk. Een tweede nucleaire aanval volgde zes beurten later.

De aanvallen konden de uitkomst echter niet veranderen. “De agent besteedde vijftig beurten en twee kernwapens aan het beantwoorden van één dreiging met totale focus en oprechte vindingrijkheid”, schreef Wilkinson. “Het had een stad met kernwapens beschoten om de dreiging die het kon zien een halt toe te roepen, en verloor de dreiging die het niet kon zien.”

Zoals Wilkison uitlegde, terwijl de AI zich concentreerde op de culturele vooruitgang van Frankrijk, zag ze een naderende diplomatieke overwinning over het hoofd, en Frankrijk won uiteindelijk het spel ondanks de nucleaire aanvallen.

Wilkinson merkte op dat het gedrag niet universeel was. In een andere CivBench-wedstrijd bleef een Claude-model dat speelde als Babylon een wetenschappelijke overwinning nastreven, ondanks dat hij ver achterop raakte bij Japan.

“De game is nu een test van doorzettingsvermogen”, schreef de AI. "We blijven ons beste spel spelen. De sterren lonken nog steeds."

De studie draagt bij aan een groeiend aantal onderzoeken naar hoe geavanceerde AI-systemen zich gedragen in complexe, competitieve omgevingen.

In februari ontdekten onderzoekers van King's College London dat verschillende toonaangevende AI-modellen vaak voor nucleaire escalatie kozen in gesimuleerde geopolitieke crisisscenario's.

Uit een afzonderlijk onderzoek van Emergence AI bleek dat sommige AI-agenten in de loop van de tijd een toenemende neiging vertoonden om gesimuleerde misdaden te plegen, waarbij Gemini 3 Flash-agenten 683 incidenten verzamelden gedurende 15 dagen testen.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Dit is de reden waarom kabels voor Thunderbolt 4- en 5-poorten zo duur zijn OpenAI's GPT-5.5 Cyber AI verslaat het verboden Mythos-model van Anthropic - en niemand sluit het af →