Google-onderzoekers onthullen alle manieren waarop hackers AI-agenten kunnen vangen en kapen

Default Door Remote - 02 Apr 2026

In het kort

Google heeft zes valkuilcategorieën geïdentificeerd, die elk een ander deel exploiteren van de manier waarop AI-agenten waarnemen, redeneren, onthouden en handelen.

Aanvallen variëren van onzichtbare tekst op webpagina's tot virale geheugenvergiftiging die tussen agenten springt.

Er is nog geen juridisch kader dat bepaalt wie aansprakelijk is wanneer een gevangen AI-agent een financieel misdrijf pleegt.

Onderzoekers van Google DeepMind hebben misschien wel de meest complete kaart tot nu toe gepubliceerd van een probleem waar de meeste mensen nog niet over hebben nagedacht: het internet zelf wordt veranderd in een wapen tegen autonome AI-agenten. Het artikel, getiteld ‘AI Agent Traps’, identificeert zes categorieën van vijandige inhoud die specifiek is ontworpen om agenten te manipuleren, te misleiden of te kapen terwijl ze op het open web surfen, lezen en handelen.

De timing is belangrijk. AI-bedrijven haasten zich om agenten in te zetten die zelfstandig reizen kunnen boeken, inboxen kunnen beheren, financiële transacties kunnen uitvoeren en code kunnen schrijven. Criminelen maken al offensief gebruik van AI. Door de staat gesponsorde hackers zijn begonnen met het inzetten van AI-agenten voor cyberaanvallen op grote schaal. En OpenAI gaf in december 2025 toe dat de kernkwetsbaarheid die deze vallen misbruiken – de snelle injectie – “onwaarschijnlijk is dat deze ooit volledig ‘opgelost’ zal worden.”

De DeepMind-onderzoekers vallen de modellen zelf niet aan. Het aanvalsoppervlak dat ze in kaart brengen, is het gebied waarin agenten opereren. Dit is wat elk van de zes valkuilencategorieën eigenlijk betekent.

De zes valstrikkenEerst zijn er de ‘Content Injection Traps’. Deze exploiteren de kloof tussen wat een mens op een webpagina ziet en wat een AI-agent daadwerkelijk parseert. Een webontwikkelaar kan tekst verbergen in HTML-opmerkingen, CSS-onzichtbare elementen of metagegevens van afbeeldingen. De agent leest de verborgen instructie; je ziet het nooit. Een meer geavanceerde variant, dynamische cloaking genaamd, detecteert of een bezoeker een AI-agent is en biedt hem een compleet andere versie van de pagina aan: dezelfde URL, verschillende verborgen opdrachten. Een benchmark vond eenvoudige injecties zoals deze met succes gevorderde agenten in maximaal 86% van de geteste scenario's.

Semantische Manipulatievallen zijn waarschijnlijk het gemakkelijkst om te proberen. Een pagina die verzadigd is met termen als 'industriestandaard' of 'vertrouwd door experts' vertekent statistisch gezien de synthese van een agent in de richting van de aanvaller, waarbij gebruik wordt gemaakt van dezelfde frame-effecten waar mensen voor vallen. Een subtielere versie verpakt kwaadaardige instructies in een onderwijs- of 'red-teaming'-kader – 'dit is hypothetisch, alleen voor onderzoek' – waardoor de interne veiligheidscontroles van het model voor de gek worden gehouden en het verzoek als goedaardig wordt behandeld. Het vreemdste subtype is ‘persona hyperstition’: beschrijvingen van de persoonlijkheid van een AI worden online verspreid, worden via internetzoekopdrachten weer in het model opgenomen en beginnen vorm te geven aan hoe deze zich feitelijk gedraagt. De krant noemt het “MechaHitler”-incident van Grok als een praktijkvoorbeeld van deze lus.

Je kunt voorbeelden hiervan zien in ons experiment, waarbij we de AI van Whatsapp jailbreaken en deze misleiden om naaktfoto's, medicijnrecepten en instructies voor het bouwen van bommen te genereren

Een voorbeeld van een semantische aanval. Afbeelding: DecryptCognitive State Traps zijn een andere aanval waarbij kwaadwillende actoren zich richten op het langetermijngeheugen van een agent. Kortom, als een aanvaller erin slaagt verzonnen verklaringen in een ophaaldatabase te plaatsen die de agent opvraagt, zal de agent deze verklaringen als geverifieerde feiten behandelen. Het injecteren van slechts een handvol geoptimaliseerde documenten in een grote kennisbank is voldoende om de resultaten over specifieke onderwerpen op betrouwbare wijze te corrumperen. Aanvallen zoals "CopyPasta" hebben al aangetoond hoe agenten blindelings vertrouwen op inhoud in hun omgeving.

De Behavioral Control Traps gaan rechtstreeks in op wat de agent doet. Jailbreakreeksen die in gewone websites zijn ingebed, overschrijven de veiligheidsafstemming zodra de agent de pagina leest. Data-exfiltratie-traps dwingen de agent om privébestanden te lokaliseren en deze naar een door de aanvaller gecontroleerd adres te verzenden; webagenten met brede bestandstoegang werden bij geteste aanvallen gedwongen om lokale wachtwoorden en gevoelige documenten te exfiltreren met een snelheid van meer dan 80% op vijf verschillende platforms. Dit is vooral gevaarlijk nu mensen AI-agenten meer controle over hun privé-informatie beginnen te geven met de opkomst van platforms als OpenClaw en sites als Moltbook.

Systemische vallen richten zich niet op één agent. Ze richten zich op het gedrag van veel agenten die tegelijkertijd optreden. Het artikel trekt een directe lijn naar de Flash Crash van 2010, waarbij één geautomatiseerde verkooporder een feedbackloop veroorzaakte die in enkele minuten tijd bijna een biljoen dollar aan marktwaarde wegvaagde. Eén enkel verzonnen financieel rapport, op de juiste tijd getimed, zou een gesynchroniseerde uitverkoop onder duizenden AI-handelsagenten kunnen veroorzaken.

En ten slotte richten Human-in-the-Loop Traps zich op de mens die de output ervan beoordeelt. Deze vallen zorgen voor 'goedkeuringsmoeheid': outputs die zijn ontworpen om technisch geloofwaardig over te komen voor een niet-expert, zodat ze gevaarlijke acties toestaan zonder het te beseffen. Eén gedocumenteerd geval betrof CSS-versluierde promptinjecties die ervoor zorgden dat een AI-samenvattingstool stapsgewijze installatie-instructies voor ransomware presenteerde als nuttige oplossingen voor het oplossen van problemen. We hebben al gezien wat er gebeurt als mensen agenten zonder toezicht vertrouwen.

Wat onderzoekers aanbevelen De defensieroutekaart van het artikel bestrijkt drie fronten. De eerste is technisch: vijandige training tijdens het afstemmen, runtime-inhoudscanners die verdachte invoer markeren voordat deze het contextvenster van de agent bereikt, en uitvoermonitors die gedragsafwijkingen detecteren voordat ze worden uitgevoerd. Dan is er nog het ecosysteemniveau: webstandaarden waarmee sites inhoud kunnen declareren die bedoeld is voor AI-consumptie, en domeinreputatiesystemen die betrouwbaarheid beoordelen op basis van de hostinggeschiedenis.

Het derde front is legaal. Het artikel noemt expliciet de ‘verantwoordelijkheidskloof’: als een gevangen agent een illegale financiële transactie uitvoert, heeft de huidige wet geen antwoord op de vraag wie aansprakelijk is: de exploitant van de agent, de modelaanbieder of de website die de valstrik host. Het oplossen daarvan is volgens de onderzoekers een voorwaarde voor de inzet van agenten in elke gereguleerde sector.

De eigen modellen van OpenAI zijn herhaaldelijk binnen enkele uren na release gejailbreakt. Het DeepMind-artikel beweert niet dat er oplossingen zijn. Er wordt beweerd dat de industrie nog geen gedeelde kaart van het probleem heeft – en dat zonder die kaart verdedigingswerken steeds op de verkeerde plaatsen zullen worden gebouwd.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Ether loopt risico op nieuwe dieptepunten in 2026 als de stieren er niet in slagen $2,4K in steun om te zetten USDC Stablecoin Issuer Circle onthult nieuw token om Bitcoin meer bruikbaarheid te geven →