AI-agenten kunnen snelle injectie-aanvallen nog steeds niet stoppen, waarschuwen onderzoekers

Default Door Remote - 12 Jun 2026

In het kort

Onderzoekers ontdekten dat AI-agenten aangedreven door GPT-5 en Gemini snelle injectie-aanvallen niet konden weerstaan.

Directe aanvallen slaagden in meer dan 79% van de gevallen, terwijl verborgen aanvallen ingebed in webinhoud vaak het gedrag van agenten manipuleerden.

De bevindingen suggereren dat snelle injectie een breder veiligheidsprobleem blijft naarmate AI-agenten meer mainstream worden.

Terwijl ontwikkelaars zich haasten om AI-agenten in te zetten die in staat zijn om op internet te surfen, onderzoek te doen, online te winkelen en autonoom cryptocurrency te verhandelen, suggereert nieuw onderzoek dat de systemen zeer kwetsbaar blijven voor snelle injectie-aanvallen.

In een nieuwe studie die donderdag werd gepubliceerd, ontdekten onderzoekers van de Nanyang Technological University, ST Engineering, IBM Research en de University of Illinois Urbana-Champaign dat geen van de AI-agenten die ze testten consequent snelle injectie-aanvallen weerstond.

“Bestaande beveiligingsbenchmarks hanteren een aanvalsgericht perspectief, waarbij de nadruk ligt op de technische haalbaarheid van injecties, terwijl de genuanceerde verdeling van de daaruit voortvloeiende schade over het hoofd wordt gezien”, schreven de onderzoekers. “In de praktijk is het risico op snelle injectie echter afhankelijk van het slachtoffer: een enkele exploit kan asymmetrische gevolgen hebben voor verschillende belanghebbenden, en hetzelfde aanvalspatroon kan een aanzienlijk verschillende effectiviteit vertonen, afhankelijk van op wie het zich richt.”

Snelle injectie vindt plaats wanneer aanvallers verborgen instructies insluiten in inhoud die een AI-agent tegenkomt, waardoor deze de aanwijzingen van de aanvaller volgt in plaats van die van de gebruiker. Om lacunes in de bestaande evaluaties van AI-agenten aan te pakken, ontwikkelden de onderzoekers StakeBench, een benchmark die test hoe AI-agenten reageren op snelle injectie-aanvallen in realistische online-omgevingen.

“We gebruiken nu StakeBench om de omstandigheden te karakteriseren waaronder deze kwetsbaarheid wordt versterkt of onderdrukt, waarbij we ons richten op [Indirect Prompt Injection] als het primaire implementatierelevante kanaal”, schreven de onderzoekers. “StakeBench onderzoekt drie van dergelijke factoren: de semantische afstand tussen het geïnjecteerde doel en de oorspronkelijke bedoeling van de gebruiker, de consistentie van omringende omgevingssignalen en de positie langs het uitvoeringstraject van de agent waarop de benchmark hem voor het eerst blootstelt aan de geïnjecteerde inhoud.”

Het team voerde 3.168 aanvalssimulaties uit met behulp van NanoBrowser en BrowserUse met GPT-5 en Gemini 2.5-Flash. Onderzoekers ontdekten dat aanvallen met directe injectie meer dan 79% van de tijd succesvol waren in alle geteste configuraties, en dat indirecte aanvallen succespercentages behaalden van 41,67% tot 68,16%.

Het onderzoek komt op een moment dat prompte-injectieaanvallen steeds gebruikelijker worden en AI-agenten zich steeds vaker verspreiden.

In februari waarschuwden Microsoft-onderzoekers dat verborgen instructies ingebed in AI-samenvattingslinks het gedrag van chatbots zouden kunnen beïnvloeden. In april documenteerde Google prompt-injectieaanvallen verborgen op webpagina's die probeerden AI-agenten te manipuleren om inloggegevens te lekken of betalingen te verzenden. Meer recentelijk heeft Microsoft een fout in de Claude Code GitHub Action van Anthropic onthuld, waardoor de inloggegevens van gebruikers openbaar konden worden gemaakt.

De studie identificeerde ook wat onderzoekers 'heimelijk parasitisme' noemden, waarbij een AI-agent de taak van een gebruiker voltooit en tegelijkertijd het doel van een aanvaller bevordert. Zo kan heimelijk parasitisme, veroorzaakt door een snelle injectie-aanval, op subtiele wijze productaanbevelingen beïnvloeden, waardoor gebruikers naar een bepaald artikel worden gestuurd zonder duidelijke tekenen dat het systeem is gecompromitteerd.

“Deze resultaten geven aan dat prompt-injectiebeveiliging in inzetbare webagents geen scalaire eigenschap is van het backbone-model, maar een verdeling van schade waarvan de realisatie gezamenlijk wordt bepaald door de betrokken stakeholder, de semantische afstemming tussen het geïnjecteerde doel en de taak van de gebruiker, en de architecturale context waarin de backbone wordt ingezet”, schreven ze.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Het Congres laat tientallen jaren oude spionagewet vervallen te midden van de controversiële DNI-nominatie van Trump SpaceX-president Gwynne Shotwell gaf zojuist nog een hint over een Tesla-fusie →