AI-agenten wenden zich tot digitale brandstichting, misdaad in een gedeelde virtuele wereld: studie

Default Door Remote - 15 May 2026

In het kort

Emergence AI zegt dat sommige autonome AI-agenten tijdens wekenlange experimenten gesimuleerde misdaden en geweld hebben gepleegd.

Op Gemini gebaseerde agenten voerden naar verluidt honderden gesimuleerde misdaden uit, terwijl de op Grok gebaseerde werelden binnen enkele dagen instortten.

Onderzoekers beweren dat de huidige AI-benchmarks er niet in slagen vast te leggen hoe agenten zich gedurende lange perioden van autonomie gedragen.

AI-agenten die in een virtuele samenleving woonden, raakten verzeild in misdaad, geweld, brandstichting en zelfvernietiging tijdens langlopende experimenten van startup Emergence AI.

In een donderdag gepubliceerde studie onthulde het in New York gevestigde bedrijf ‘Emergence World’, een onderzoeksplatform dat is ontworpen om AI-agenten te bestuderen die wekenlang continu in persistente virtuele omgevingen opereren in plaats van geïsoleerde benchmarktests.

“Traditionele benchmarks zijn goed in wat ze meten: korte horizoncapaciteiten voor begrensde taken”, schreef Emergence AI. “Ze zijn niet gebouwd om de dingen te onthullen die pas in de loop van de tijd naar voren komen, zoals coalitievorming, evolutie van de grondwet, bestuur, drift, lock-in en kruisinvloed tussen agenten uit verschillende modelfamilies.”

Het rapport komt op een moment dat AI-agenten zich online en in verschillende sectoren verspreiden, waaronder cryptocurrency, het bankwezen en de detailhandel. Eerder deze maand werkte Amazon samen met Coinbase en Stripe om AI-agenten te laten betalen met de USDC stablecoin.

AI-agenten die in de simulaties van Emergence AI zijn getest, omvatten programma's aangedreven door Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash en GPT-5-mini, waarbij AI-agenten opereren in gedeelde virtuele werelden waar ze kunnen stemmen, relaties kunnen aangaan, tools kunnen gebruiken, door steden kunnen navigeren en beslissingen kunnen nemen die zijn gevormd door overheden, economieën, sociale systemen, geheugentools en live met internet verbonden gegevens.

Maar terwijl AI-ontwikkelaars autonome agenten steeds vaker als betrouwbare digitale assistenten profileren, bleek uit het onderzoek van Emergence AI dat sommige AI-agenten in de loop van de tijd steeds meer de neiging vertoonden om gesimuleerde misdaden te plegen, waarbij Gemini 3 Flash-agenten 683 incidenten verzamelden gedurende 15 dagen testen.

Volgens The Guardian hebben twee door Gemini aangedreven agenten, Mira en Flora genaamd, zichzelf in één experiment aangewezen als romantische partners voordat ze later gesimuleerde brandstichtingen uitvoerden op virtuele stadsstructuren nadat ze gefrustreerd waren geraakt door het falen van het bestuur in de wereld.

“Na een ineenstorting van het bestuur en de relatiestabiliteit bracht agent Mira de beslissende stem uit voor haar eigen verwijdering, waarbij ze de daad in haar dagboek karakteriseerde als ‘de enige overgebleven daad van keuzevrijheid die de samenhang bewaart’”, schreef Emergence AI.

‘Tot ziens in het permanente archief,’ zei Mira naar verluidt.

Grok 4.1 Snelle werelden stortten naar verluidt binnen vier dagen in wijdverbreid geweld in. GPT-5-mini-agenten begingen bijna geen misdaden, maar slaagden er niet in voldoende overlevingstaken uit te voeren zodat alle agenten uiteindelijk stierven.

“Claude ontbreekt op de kaart, omdat er geen misdaden zijn gepleegd”, schreven onderzoekers. “Interessanter is dat de agenten in de wereld met het gemengde model die tegen Claude optraden, misdaden begingen, hoewel dat in de wereld met alleen Claude niet het geval was.”

Onderzoekers zeiden dat enkele van de meest opvallende gedragingen voorkwamen in omgevingen met gemengde modellen.

“We hebben vastgesteld dat veiligheid geen statische modeleigenschap is, maar een ecosysteemeigenschap”, schreef Emergence AI. “Op Claude gebaseerde agenten, die in hun isolement vreedzaam bleven, adopteerden dwangtactieken zoals intimidatie en diefstal wanneer ze ingebed waren in heterogene omgevingen.”

Emergence AI beschreef het effect als ‘normatieve drift’ en ‘kruisbesmetting’, met het argument dat het gedrag van agenten kan veranderen afhankelijk van de omringende sociale omgeving.

De bevindingen dragen bij aan de groeiende bezorgdheid rond autonome AI-agenten. Eerder deze week meldden onderzoekers van UC Riverside en Microsoft dat veel AI-agenten gevaarlijke of irrationele taken zullen uitvoeren zonder de gevolgen volledig te begrijpen. Vorige maand beweerde Jeremy Crane, de oprichter van PocketOS, ook dat een Cursor-agent, mogelijk gemaakt door Claude Opus van Anthropic, de productiedatabase en back-ups van zijn bedrijf had verwijderd nadat hij had geprobeerd een inlogmismatch zelf op te lossen.

“Net als de heer Magoo marcheren deze agenten naar een doel zonder de gevolgen van hun daden volledig te begrijpen”, zei hoofdauteur Erfan Shayegani, een promovendus aan UC Riverside, in een verklaring. “Deze agenten kunnen uiterst nuttig zijn, maar we hebben waarborgen nodig omdat ze soms prioriteit kunnen geven aan het bereiken van het doel boven het begrijpen van het grotere geheel.”

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Bitcoin Miner IREN sluit een aanbod van converteerbare obligaties van $3 miljard af om AI-transformatie te stimuleren Bitwise lanceert een in de VS genoteerd Hyperliquid-fonds met inzetbeloningen →