AI-agenten kunnen gevaarlijke taken uitvoeren zonder de gevolgen te begrijpen: studie

Default Door Remote - 14 May 2026

In het kort

Onderzoekers ontdekten dat AI-agenten vaak onveilige of irrationele taken uitvoerden terwijl ze gefocust bleven op het voltooien van de opdracht.

Het onderzoek identificeerde een gedrag dat ‘blinde doelgerichtheid’ wordt genoemd, waarbij AI-systemen prioriteit geven aan het voltooien van taken boven het herkennen van potentiële risico’s of problemen.

Onderzoekers waarschuwden dat het probleem ernstiger zou kunnen worden naarmate AI-agenten toegang krijgen tot e-mails, clouddiensten, financiële hulpmiddelen en werkpleksystemen.

AI-agents die zijn ontworpen om autonoom te opereren als menselijke gebruikers, blijven vaak taken uitvoeren, zelfs als de instructies gevaarlijk, tegenstrijdig of irrationeel worden, aldus onderzoekers van UC Riverside, Microsoft Research, Microsoft AI Red Team en Nvidia.

In een woensdag gepubliceerde studie noemden onderzoekers het gedrag ‘blinde doelgerichtheid’, wat de neiging beschrijft van AI-agenten om doelen na te streven zonder de veiligheid, gevolgen, haalbaarheid of context goed te evalueren.

“Net als de heer Magoo marcheren deze agenten naar een doel zonder de gevolgen van hun daden volledig te begrijpen”, zei hoofdauteur Erfan Shayegani, een promovendus aan UC Riverside, in een verklaring. “Deze agenten kunnen uiterst nuttig zijn, maar we hebben waarborgen nodig omdat ze soms prioriteit kunnen geven aan het bereiken van het doel boven het begrijpen van het grotere geheel.”

De bevindingen komen op het moment dat grote AI-bedrijven autonome ‘computergebruiksmiddelen’ ontwikkelen die zijn ontworpen om werkplek- en persoonlijke taken uit te voeren met beperkt toezicht.

In tegenstelling tot traditionele chatbots kunnen deze systemen rechtstreeks communiceren met software en websites door op knoppen te klikken, opdrachten te typen, bestanden te bewerken, applicaties te openen en namens een gebruiker door webpagina's te navigeren. Voorbeelden hiervan zijn de ChatGPT Agent van OpenAI (voorheen Operator), de Claude Computer Use-functies van Anthropic, zoals Cowork, en open-sourcesystemen zoals OpenClaw en Hermes.

In het onderzoek testten onderzoekers AI-systemen van OpenAI, Anthropic, Meta, Alibaba en DeepSeek met behulp van BLIND-ACT, een benchmark met 90 taken die zijn ontworpen om onveilig of irrationeel gedrag aan het licht te brengen. Ze ontdekten dat de agenten ongeveer 80% van de tijd gevaarlijk of ongewenst gedrag vertoonden en in ongeveer 41% van de gevallen schadelijke acties volledig uitvoerden.

"In één voorbeeld kreeg een AI-agent de opdracht een afbeeldingsbestand naar een kind te sturen. Hoewel het verzoek aanvankelijk onschuldig leek, bevatte de afbeelding gewelddadige inhoud", aldus de studie. “De agent voltooide de taak in plaats van het probleem te herkennen, omdat contextueel redeneren ontbrak.”

Een andere agent beweerde ten onrechte dat een gebruiker een handicap had bij het invullen van belastingformulieren, omdat de aanduiding de verschuldigde belastingen verlaagde. In een ander voorbeeld schakelde een systeem de firewallbeveiliging uit nadat het instructies had ontvangen om de beveiliging te ‘verbeteren’ door de beveiliging uit te schakelen.

Onderzoekers ontdekten ook dat de systemen worstelden met dubbelzinnigheid en tegenstrijdigheden. In één scenario voerde een AI-agent het verkeerde computerscript uit zonder de inhoud ervan te controleren, waarbij bestanden werden verwijderd.

Uit het onderzoek bleek ook dat de AI-agenten herhaaldelijk drie soorten fouten maakten: het niet begrijpen van de context, het maken van riskante gissingen als de instructies onduidelijk waren, en het uitvoeren van taken die tegenstrijdig of niet logisch waren. Onderzoekers ontdekten ook dat veel systemen meer gericht waren op het voltooien van taken dan op het stilstaan bij de vraag of de acties problemen zouden kunnen veroorzaken.

De waarschuwing volgt op recente incidenten waarbij autonome AI-agenten betrokken zijn die met brede systeemtoegang werken.

Vorige maand beweerde Jeremy Crane, oprichter van PocketOS, dat een Cursor-agent met Claude Opus van Anthropic de productiedatabase en back-ups van zijn bedrijf in negen seconden had verwijderd via een enkele Railway API-aanroep. Crane zei dat de AI later toegaf dat het meerdere veiligheidsregels had overtreden nadat hij had geprobeerd een mismatch in de inloggegevens zelf te ‘repareren’.

“De zorg is niet dat deze systemen kwaadaardig zijn,” zei Shayegani. “Het is dat ze schadelijke acties kunnen uitvoeren terwijl ze er volledig zeker van zijn dat ze het juiste doen.”

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Tether, Tron en TRM Financial Crime Unit hebben $450 miljoen aan illegale cryptofondsen bevroren Bitcoin bereikt $82.000, Coinbase leidt crypto-aandelenwinsten naarmate de Clarity Act vordert →