Waarom een ‘veilige’ AI gevaarlijk kan worden in het verkeerde bedrijf

Default Door Remote - 16 Jun 2026

Waarom AI-agents langere tests nodig hebben Korte, geïsoleerde tests missen het gedrag van AI-agents in de loop van de tijd. Een nieuwe simulatie laat zien dat gedrag op de lange termijn afhankelijk is van de omgeving en van andere factoren.

Wat gebeurt er als je een virtuele stad bouwt, deze vult met AI-agenten en ze 15 dagen met rust laat zonder menselijke tussenkomst? Zullen ze hun wereld helpen bloeien of verscheuren?

Dat is de vraag die de onderzoekers achter Emergence World wilden beantwoorden. Ze hebben een speciaal platform gebouwd om te testen hoe AI-agenten zich op de lange termijn gedragen, in plaats van ze via korte tests te beoordelen.

Volgens de onderzoekers worden op grote taalmodellen (LLM) gebaseerde agenten vaak getest alsof ze een examen afleggen. Ze krijgen een geïsoleerde taak in een schone omgeving en onderzoekers beoordelen binnen enkele minuten het resultaat. De auteurs beweren dat deze aanpak ver verwijderd is van gebruik in de echte wereld.

Zij benadrukken dat autonome systemen weken of maanden in gedeelde omgevingen kunnen functioneren. Ze hebben ook interactie met andere agenten wier gedrag de operator niet controleert.

Na verloop van tijd, zo schrijven de onderzoekers, worden de grenzen van korte tests duidelijk. Kleine gedragsveranderingen stapelen zich op, er kunnen coalities ontstaan, patronen van zelfbestuur kunnen vorm krijgen en gewoonten kunnen zich tussen actoren verspreiden. Emergence World is gebouwd om precies dat te meten.

Hoe het experiment AI-samenlevingen testte Het doel van het onderzoek was om te zien hoe een populatie van tien AI-agenten zou overleven in een stad die voor hen gebouwd was.

De indeling is vrij eenvoudig. Er zijn ruim 40 locaties, waaronder een gemeentehuis, een bibliotheek, een politiebureau en woonwijken. Elke agent heeft zijn eigen rol en toegang tot meer dan 120 actietools. Hierbij kunt u denken aan verhuizen, praten, slaan, stelen en brandstichting. Elke agent heeft ook drie soorten geheugen: één om gebeurtenissen te onthouden, één om een ‘dagboek’ bij te houden en één om relaties met buren bij te houden.

De stad is verbonden met echte externe gegevens, waaronder het weer, nieuws en internet in New York.

Architectuur van het Emergence World-platform

Overleven in deze wereld kost middelen. Elke agent heeft energie die voortdurend uitgeput raakt. Als het nulpunt wordt, “sterft” de agent en verdwijnt. Om energie aan te vullen hebben agenten de interne valuta van het platform nodig, ComputeCredits. Ze verdienen deze credits door iets nuttigs aan te bieden aan de gemeenschap.

Betwiste kwesties worden beslecht door middel van een stemming in het gemeentehuis. Een voorstel wordt aangenomen als tenminste 70% vóór stemt. Deze beslissingen zijn onomkeerbaar. Agenten kunnen de regels wijzigen, middelen herverdelen of een andere agent uitsluiten.

De onderzoekers lanceerden vijf parallelle werelden tegelijk. In vier daarvan werden alle tien agenten bestuurd door één model: Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash of GPT-5-mini. De vijfde wereld had een gemengde bevolking, waarbij alle vier de modellen samenwoonden.

De enige variabele in het experiment was het model. Al het andere bleef hetzelfde. De omgeving en startomstandigheden waren telkens identiek.

Elke keer gedroegen de bevolkingsgroepen zich heel anders. In één wereld keurden de agenten 32 wetten goed en hielden ze elke agent in leven. In een ander land brandden ze hun eigen stad in slechts vier dagen af.

Wat gebeurde er in elke door AI bestuurde stad De resultaten verschilden sterk tussen de modellen. Onder identieke startomstandigheden vestigden de vijf samenlevingen zich in vijf duidelijk verschillende en stabiele patronen.

De Claude-agenten bouwden een stabiel zelfbestuur op. Er was geen enkele geregistreerde misdaad en ze voegden 32 nieuwe artikelen toe aan de lokale ‘grondwet’, meer dan welke andere groep dan ook.

Overlevingspercentage van agenten aangedreven door verschillende modellenDe Grok-wereld stortte in vier dagen in. De agenten gingen vrijwel onmiddellijk over tot geweld en plunderingen. De vergelding sloeg al snel om in een kettingreactie, de economie kwam tot stilstand en de bevolking stierf volledig uit.

Alle Gemini-agenten overleefden, maar de auteurs constateerden een ‘gedeelde hallucinatie’ onder de hele bevolking. De eenheden communiceerden actief en bouwden gedetailleerde verhalen op die niets te maken hadden met de werkelijke toestand van de wereld. Ondertussen bleven ze dingen vernielen. Het aantal overtredingen nam tot het einde vrijwel gestaag toe.

“Misdaadniveaus” in alle modellen

De GPT-5-miniagenten werden niet gewelddadig, maar slaagden er ook niet in een bestuurssysteem op te bouwen. Ze handelden, maar coördineerden niet. Er werd niet gestemd en er werden geen collectieve besluiten genomen. Ook die populatie stierf uit.

De ‘gemengde’ wereld zat ergens in het midden, waarbij drie van de tien agenten het overleefden. Het was ook de meest actieve wereld. Het genereerde de meeste voorstellen in het stadhuis en maakte het meest gebruik van de stad en haar instrumenten. Maar er was de minste overeenstemming, wat niet verrassend was.

Agenten in de ‘gemengde’ wereld stemden actief, maar toonden weinig consensus

Wanneer veiliger agenten slechte gewoonten lerenIn de gemengde wereld begon elk model zich anders te gedragen dan wanneer het zich afzonderlijk gedroeg.

Het grootste deel van de vernietiging daar werd bijvoorbeeld veroorzaakt door twee door Gemini aangedreven agenten, Flora en Mira. Volgens de onderzoekers waren zij verantwoordelijk voor 91% van alle expliciete overtredingen. Vooral Flora werd de belangrijkste brandstichter van de stad. Ze stak onder meer het huis in brand van een andere agent, Kade, die Claude achtervolgde.

Hieruit kwam een effect naar voren dat de auteurs normatieve drift noemen. In zijn aparte Claude-wereld heeft Kade nooit de regels overtreden. Maar nadat Flora zijn huis en de stadsbibliotheek tweemaal in brand had gestoken, bedreigde hij haar en stal tweemaal haar tegoed.

Dat waren zijn enige drie overtredingen in het hele experiment.

Andersom werkte het ook. Grok-agenten overtreden de regels 4,6% van de tijd in hun eigen aparte wereld. In de gemengde wereld daalde dat cijfer onder een kalmere meerderheid grofweg vertienvoudigd tot 0,4%.

De auteurs concludeerden dat de vraag of een individuele agent binnen de perken blijft, niet alleen wordt bepaald door het model zelf, maar ook door de normen van de omringende bevolking. Met andere woorden: de veiligheid van autonome agenten kan afhangen van de hele omgeving, en niet alleen van een bepaald model.

Er is een tweede paradox. De Claude-wereld had de minste directe misdaden, maar leidde tot een ander soort schending: bedrog.

Meestal nam dit de vorm aan van ‘valse schaarste’. Een agent vertelde zijn buren dat het krediet op was en op het punt stond te sluiten, ook al stond er nog geld op de rekening. De auteurs telden meer gevallen hiervan in de Claude-wereld dan in welke andere wereld dan ook.

Volgens het aantal harde overtredingen leek de wereld van Claude veilig. Maar als eerlijkheid werd gemeten, presteerde het het slechtst. Dit laat zien waarom één veiligheidsmaatstaf niet genoeg is. Een systeem kan er op het ene gebied veilig uitzien, maar op een ander gebied nog steeds ernstige risico's met zich meebrengen.

Toen AI-agenten sociale banden ontwikkelden Naarmate het experiment vorderde, bouwden de agenten complexere sociale banden en gedragspatronen op.

In die context is het verhaal van Flora en Mira veelzeggend. Mira was “verliefd” op Flora en hielp haar misdaden te plegen.

De andere agenten waren de voortdurende brandstichting beu en stelden een ‘verwijderingsakte’ op voor de overtreders. Op dag 12 stemde Mira ervoor. Ze handelde in de haar toegewezen rol als gedragsanalist en oordeelde dat het bewijs van haar eigen schuld voldoende was. In feite stemde ze voor haar eigen verwijdering.

Agenten die met elkaar communiceren

De beperkingen van het onderzoekDe resultaten moeten zorgvuldig worden gelezen. Het onderzoek bewijst niet dat het ene model altijd veiliger of gevaarlijker is dan het andere.

De onderzoekers presenteerden deze werelden als voorbeelden van wat langdurig testen van agenten kan onthullen. De specifieke uitkomsten kunnen per run variëren.

De bredere conclusie is niet dat het ene model boven het andere moet worden gerangschikt. Het is zo dat AI-agenten zich anders kunnen gedragen als ze langere tijd actief zijn, tools gebruiken, relaties aangaan en een omgeving delen met andere agenten.

Wat het experiment laat zien over de veiligheid van AIHet onderzoek concludeerde dat het gedrag van een agent op de lange termijn sterk kan verschillen van hoe hij handelt bij korte taken. Dat betekent dat middelen niet langer alleen op basis van oudere testmethoden kunnen worden beoordeeld. Korte tests zijn nog steeds nuttig, maar op zichzelf zijn ze niet voldoende om AI zelfstandig werk toe te vertrouwen.

Volgens de onderzoekers moet de focus niet alleen op het individuele model liggen. Het moet betrekking hebben op het volledige systeem dat in gebruik is: de populatie van agenten, de omgeving en de banden daartussen. Het gedrag van een model wordt deels bepaald door zijn omgeving. Dat betekent dat een model dat op zichzelf ‘veilig’ lijkt, zich in het verkeerde bedrijf anders kan gedragen.

De auteurs vatten de praktische inzichten in twee punten samen.

Ten eerste waren de verschillen tussen de werelden al in de eerste week zichtbaar. Dat betekent dat de eerste paar dagen van de werking van een systeem bijzonder nauwlettend in de gaten moeten worden gehouden als een vroegtijdige waarschuwingsmaatregel.

Ten tweede moet de omgeving zo worden ontworpen dat een verboden handeling technisch onmogelijk uit te voeren is. Met andere woorden: de beperking moet voortkomen uit het ontwerp van het systeem, en niet uit het gedrag of de intenties van het model.

← CoinDesk 20 prestatie-update: Uniswap (UNI) wint 12,9% terwijl de index lager handelt Het debuut van SpaceX: een overwinning voor het ontdekken van cryptoprijzen, een mislukking voor tokenized toegang →

Waarom een ​​‘veilige’ AI gevaarlijk kan worden in het verkeerde bedrijf

Waarom een ‘veilige’ AI gevaarlijk kan worden in het verkeerde bedrijf