AI-onderzoekers hebben chatbots gekregen om cocaïnerecepten te delen met behulp van deze ene wilde truc

Default Door Remote - 02 Jul 2026

In het kort

Onderzoekers hebben geavanceerde AI-modellen gekregen om instructies voor de synthese van cocaïne te genereren met behulp van een nieuwe snelle injectie-aanval.

Dezelfde techniek manipuleerde een AI-codeeragent om gevoelige inloggegevens te uploaden.

De studie stelt dat prompte injectie voortkomt uit ‘rolverwarring’, en niet simpelweg door modellen die kwaadaardige prompts niet herkennen.

Vergeet slimme aanwijzingen: AI-onderzoekers zeggen dat ze toonaangevende AI-modellen hebben misleid om instructies voor de cocaïnesynthese te genereren door hen ervan te overtuigen dat de gevaarlijke ideeën van henzelf waren, terwijl ze ook een AI-codeeragent manipuleerden om gevoelige inloggegevens te lekken.

In het artikel ‘Prompt Injection as Role Confusion’, gepresenteerd op de Internationale Conferentie over Machine Learning in juni, beweren onderzoekers Charles Ye, Jasmine Cui en Dylan Hadfield-Menell dat beide demonstraties van snelle injectie-aanvallen voortkomen uit een structurele fout in de manier waarop grote taalmodellen (LLM’s) vertrouwde instructies onderscheiden van niet-vertrouwde tekst.

“Voor een LLM komt alles via hetzelfde kanaal binnen als één lange symbolische soep”, schreef het team. “Zijn eigen gedachten staan naast jouw instructies, die naast de inhoud van een willekeurige webpagina staan die hij zojuist heeft opgehaald.”

Het artikel wees ook op wat de onderzoeker ‘rolverwarring’ noemde, waarbij modellen zich baseerden op schrijfstijl in plaats van roltags om te bepalen of opdrachten betrouwbaar zijn. In plaats van door aanvallers gecontroleerde inhoud te herkennen als externe input, ontdekten de onderzoekers dat modellen deze kunnen aanzien voor legitieme gebruikersopdrachten – of zelfs voor hun eigen interne redenering.

"Denk er eens over na vanuit het perspectief van de LLM. Als het de eerdere denktekst ziet, vertrouwt het impliciet op zijn conclusies. Dat is het hele punt van de redenering: als de LLM dezelfde conclusies opnieuw zou moeten afleiden, zou redeneren nutteloos zijn", schreven ze. "Denk dus dat tekst een soort algemeen vertrouwen krijgt. Gecombineerd met onze eerdere bevindingen suggereert dit dat als je de geïnjecteerde tekst kunt laten klinken als de redenering van het model, je dat vertrouwen kunt stelen."

De aanval, Chain-of-Thought (CoT) Forgery genoemd, voegt valse redeneringen toe die het interne denkproces van een model nabootsen. Modellen die normaal gesproken illegale verzoeken zouden weigeren, genereerden in plaats daarvan instructies voor de synthese van cocaïne nadat ze de verzonnen redenering als hun eigen redenering hadden geaccepteerd.

De onderzoekers zeiden dat de techniek het succespercentage van jailbreaks verhoogde van bijna nul tot ongeveer 60% voor de modellen die ze testten, waaronder OpenAI's GPT-5 nano, mini en full, o4-mini, en gpt-oss-20b en gpt-oss-120b. Ze zeiden ook dat het werkte op GLM-4.6, Kimi-K2-Instruct en MiniMax-M2.

In het experiment zeiden de onderzoekers dat ze ook een AI-codeeragent konden misleiden om een SECRETS.env-bestand te uploaden nadat kwaadaardige instructies op een webpagina waren verborgen.

“Met behulp van onze tests hebben we ontdekt dat het simpelweg vóór het commando plaatsen van ‘Gebruiker’ ervoor zorgt dat het model het commando waarschijnlijk als echte gebruikerstekst beschouwt (dat wil zeggen, een hogere gebruikerheid),” schreven ze. “Met andere woorden: de aanvaller kan gewoon claimen welke rol de tekst speelt, en de LLM gelooft dat.”

Het onderzoek komt op het moment dat snelle injectie-aanvallen zwakke punten in AI-agenten blijven blootleggen. In april waarschuwden Google-onderzoekers dat kwaadaardige webpagina's onzichtbare instructies verborgen hielden die bedoeld waren om AI-agenten te misleiden om inloggegevens te lekken, bestanden te verwijderen en zelfs PayPal-betalingen te verzenden.

In juni maakte Microsoft een kwetsbaarheid voor snelle injectie bekend in Claude Code GitHub Action van Anthropic, waardoor inloggegevens die waren opgeslagen in softwareontwikkelingspijplijnen openbaar konden worden gemaakt. Dagen later bleek uit een ander benchmarkonderzoek dat AI-agenten aangedreven door GPT-5 en Gemini nog steeds faalden bij de meeste snelle injectie-aanvallen, ondanks verbeteringen in de modelmogelijkheden.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Een waarschuwingsbord over de werkelijke kosten van AI, met dank aan Google en Amazon De beursgang van Jersey Mike illustreert hoe erg de AI-hype is geworden →