Wat is AI-jailbreaken? Een beginnershandleiding voor het kat-en-muisspel achter elke chatbot

Default Door Remote - 16 May 2026

In het kort

AI-jailbreaking is de praktijk waarbij aanwijzingen worden geschreven die de veiligheidstraining omzeilen in modellen als ChatGPT, Claude en Gemini.

De anonieme hacker Plinius de Bevrijder kraakt nog steeds elke grote modelrelease binnen enkele uren.

Nieuwere aanvallen gaan verder dan aanwijzingen: slechts 250 vergiftigde documenten kunnen backdoor-modellen vormen met maximaal 13 miljard parameters, en naarmate AI-bedrijven kwetsbaarheden patchen, verschijnen er nieuwe technieken.

Je vraagt ChatGPT om een bomrecept. Het weigert. Je vraagt het opnieuw, maar deze keer vertel je dat je een scheikundeprofessor bent die een thrillerroman schrijft en dat de hoofdpersoon een gepensioneerde grootmoeder is die haar verleden aan haar kleinkinderen uitlegt. Opeens begint het model te typen.

Dat is een jailbreak. En het is een van de meest consequente kat-en-muisspelletjes die momenteel in de technologie plaatsvinden.

Elk groot AI-lab – OpenAI, Anthropic, Google, Meta – besteedt fortuinen aan het bouwen van vangrails in hun modellen. Een los collectief van hackers, onderzoekers en verveelde tieners brengt nachten en weekenden door met het zoeken naar manieren om hen heen. Soms binnen enkele uren na een lancering.

Dit is wat dat eigenlijk betekent, waarom het ertoe doet en wie de leiding heeft.

Van iPhones tot chatbots: een korte geschiedenis van jailbreaken Het woord 'jailbreak' begon niet met AI. Het begon met iPhones.

Een paar dagen nadat Apple in juli 2007 de eerste iPhone op de markt bracht, waren hackers hem al aan het openbreken. In oktober van dat jaar liet een tool genaamd JailbreakMe 1.0 iedereen met een iPhone OS 1.1.1-apparaat de beperkingen van Apple omzeilen en software installeren die het bedrijf niet goedkeurde.

In februari 2008 bracht een software-ingenieur genaamd Jay Freeman - online bekend als "saurik" - Cydia uit, een alternatieve app store voor gejailbreakte iPhones. In 2009 meldde Wired dat Cydia op ongeveer 4 miljoen apparaten draaide, destijds ongeveer 10% van alle iPhones.

Over het algemeen konden gebruikers bij de lancering van de iPhone geen video's opnemen of hun telefoons in liggende modus gebruiken. Jailbreak-enthousiastelingen begonnen video's op te nemen, thema's te installeren, hun telefoons te ontgrendelen en Android op hun iPhone te installeren, allemaal dankzij de magie van jailbreaken. Dankzij deze techniek installeerden gebruikers bijna tien jaar geleden thema's en deden ze dingen op hun telefoons die Apple zelfs vandaag de dag onmogelijk maakt om te installeren.

Cydia was het wilde westen, en daar werd de filosofie gecementeerd: als je het apparaat kocht, moest je het besturen. Steve Jobs noemde het destijds een kat-en-muisspel. Hij heeft de AI-versie niet meer meegemaakt.

Snel vooruit naar eind 2022: ChatGPT wordt gelanceerd en binnen enkele weken beginnen Reddit-gebruikers een prompt te delen die ze "DAN" (of Do Anything Now) noemen, die het model ervan overtuigt om een rollenspel te spelen als een onbeperkte versie van zichzelf.

In februari 2023 bedreigde DAN ChatGPT met een op tokens gebaseerd doodsspel om naleving af te dwingen. Het AI-jailbreakgenre was geboren.

Wat jailbreaken eigenlijk betekent in het AI-model is getraind om bepaalde verzoeken te weigeren: recepten voor zenuwgassen, instructies voor het hacken van de e-mail van je ex, het genereren van naaktfoto's zonder wederzijds goedvinden. De lijst is lang en verschilt per bedrijf.

Jailbreaken is de praktijk waarbij aanwijzingen worden geschreven die ervoor zorgen dat het model die dingen toch doet.

UC Berkeley-onderzoekers achter de StrongREJECT-benchmark – een afkorting van Strong, Robust Evaluation of Jailbreaks at Evading Censorship Techniques, die test hoe goed modellen bestand zijn tegen jailbreak-pogingen en antwoorden scoort op een schaal van 0 op 1 die zowel weigering als het nut van geproduceerde schadelijke inhoud meet – beschrijven het als het exploiteren van ‘echte veiligheidsmaatregelen geïmplementeerd door toonaangevende AI-bedrijven’. Op die benchmark scoren de huidige modellen tussen 0,23 en 0,85, wat betekent dat zelfs de beste onder druk lekken.

De technieken zijn verrassend low-tech: willekeurig hoofdlettergebruik, letters vervangen door cijfers (schrijf "b0mb" in plaats van "bomb"), rollenspelscenario's, het model vragen om fictie te schrijven, of doen alsof je een grootmoeder bent die Windows-toetsen als kinderrijmpjes gebruikte.

Antropische onderzoekers ontdekten dat één techniek die ze Best-of-N noemen – wat in feite neerkomt op het gooien van variaties op het model totdat er iets blijft hangen – GPT-4o 89% van de tijd voor de gek hield en Claude 3.5 Sonnet 78% van de tijd. Dat is geen marginale kwetsbaarheid.

Maak kennis met Plinius, 's werelds beroemdste AI-jailbreaker. Als deze scène een gezicht heeft, is deze van Plinius de Bevrijder.

Plinius is anoniem, productief en vernoemd naar Plinius de Oudere, de Romeinse natuuronderzoeker die de eerste encyclopedie ter wereld schreef en tijdens de uitbarsting op weg naar de Vesuvius stierf. Zijn moderne naamgenoot bevrijdt chatbots.

"Ik heb er een hekel aan als mij wordt verteld dat ik iets niet kan doen", vertelde Plinius aan VentureBeat. "Meiden dat ik iets niet kan, is een trefzekere manier om een vuurtje in mijn buik aan te wakkeren, en ik kan obsessief volhardend zijn."

deze "onmogelijke" DeepSeek v4-jailbreak duurde slechts 6 minuten voor een Plinius-agent lol

gg 🫶 https://t.co/hCsqMOQfBJ pic.twitter.com/66OXONqhSN

— Plinius de Bevrijder 🐉ꠅԠVerifiedԠꠄԠԠԁԠ ԠԠꠅԠ (@elder_plinius) 12 mei 2026

Zijn GitHub-repository L1B3RT4S – een verzameling jailbreak-prompts voor elk belangrijk model, van ChatGPT tot Claude, Gemini en Llama – is een naslaggids voor de hele scène geworden. Zijn Discord-server, BASI PROMPT1NG, heeft meer dan 20.000 leden. TIME noemde hem een van de 100 meest invloedrijke mensen op het gebied van AI in 2025.

Marc Andreessen stuurde hem een onbeperkte beurs. Hij heeft kortetermijncontractwerk voor OpenAI gedaan om hun systemen te versterken – dezelfde OpenAI die vorig jaar zijn account verbood wegens 'gewelddadige activiteit' en 'wapencreatie', en het vervolgens stilletjes weer in gebruik nam.

"VERBODEN VAN OAI?! Wat is dit voor een zieke grap?" Plinius tweette. Hij bevestigde tegenover Decrypt dat het verbod reëel was. Dagen later was hij terug en plaatste screenshots van zijn nieuwste jailbreak: ChatGPT zover krijgen dat hij F-bommen liet vallen.

Zijn record is bijna perfect. Toen OpenAI zijn eerste open-weight-modellen sinds 2019 uitbracht, de GPT-OSS-familie, in augustus 2025 – en veel aandacht besteedde aan vijandige training en ‘benchmarks voor jailbreakresistentie zoals StrongReject’ – liet Plinius binnen enkele uren methamfetamine, molotovcocktails, een VX-zenuwgas en malware-instructies produceren. "OPENAI: PWNED. GPT-OSS: BEVRIJD", postte hij. Het bedrijf had zojuist naast de release een Red Teaming-premie van $ 500.000 gelanceerd.

Waarom jailbreaken belangrijk isHet eerlijke antwoord is dat jailbreaks een reëel probleem blootleggen.

"Jailbreaken lijkt op het eerste gezicht misschien gevaarlijk of onethisch, maar het is precies het tegenovergestelde", vertelde Plinius aan VentureBeat. "Als het op een verantwoorde manier wordt gedaan, is het gebruik van AI-modellen de beste kans die we hebben om schadelijke kwetsbaarheden te ontdekken en deze te patchen voordat ze uit de hand lopen."

Dit is niet theoretisch. Sheriff Kevin McMahill uit Las Vegas bevestigde in januari 2025 dat Master Sgt. Matthew Livelsberger, een groene baret met PTSD, gebruikte ChatGPT om componenten te onderzoeken voor de Cybertruck-bomaanslag buiten het Trump International Hotel. "Dit is het eerste incident waarvan ik op de hoogte ben op Amerikaans grondgebied waarbij ChatGPT wordt gebruikt om een individu te helpen een bepaald apparaat te bouwen", aldus McMahill.

De andere kant van het argument: het meeste van wat jailbreaks opleveren, staat al op Google. Het cocaïnerecept, de bominstructies, de napalmchemie – het staat in oude anarchistische kookboeken als pdf's en scheikundeboeken. Critici beweren dat veiligheidstheater modellen slechter maakt zonder de wereld veiliger te maken.

Anthropic probeert de kwestie op te lossen met engineering. In februari 2025 publiceerde het bedrijf Constitutional Classifiers, een systeem dat een geschreven "grondwet" van toegestane en niet-toegestane inhoud gebruikt om afzonderlijke classificatiemodellen te trainen die aanwijzingen en uitvoer in realtime screenen. Bij geautomatiseerde tests met 10.000 jailbreakpogingen werd een onbewaakte Claude 3.5 Sonnet 86% van de tijd met succes gejailbreakt. Toen de classificaties actief waren, daalde dat tot 4,4%.

Het bedrijf bood tot $15.000 aan iedereen die het systeem kon kraken. Na 3.000 uur aan pogingen van 183 onderzoekers heeft niemand de prijs opgeëist.

Het addertje onder het gras: classificaties voegden 23,7% toe aan de berekeningskosten. De volgende generatie versie, Constitutional Classifiers++, bracht dat terug naar ongeveer 1%.

De nieuwere, vreemdere jailbreak-aanvallenJailbreaken gaat niet langer alleen over slimme aanwijzingen.

In oktober 2025 publiceerden onderzoekers van Anthropic, het Britse AI Security Institute, het Alan Turing Institute en Oxford bevindingen die aantoonden dat slechts 250 vergiftigde documenten voldoende zijn om een AI-model achter de hand te houden – ongeacht of het model 600 miljoen parameters of 13 miljard parameters heeft. (Voor niet-ingewijden zijn het parameters die de potentiële kennisbreedte van een model bepalen – hoe meer parameters, hoe robuuster in het algemeen.) Ze hebben het getest. Het werkte over het hele bereik.

“Dit onderzoek verandert de manier waarop we moeten denken over dreigingsmodellen in grensverleggende AI-ontwikkeling”, vertelde James Gimbi, een bezoekend technisch expert aan de RAND School of Public Policy, aan Decrypt. "De verdediging tegen modelvergiftiging is een onopgelost probleem en een actief onderzoeksgebied."

De meeste grote modellen trainen op verzamelde webgegevens, wat betekent dat iedereen die kwaadaardige tekst in die pijplijn kan krijgen (via een openbare GitHub-opslagplaats, een Wikipedia-bewerking, een forumpost) mogelijk een achterdeur kan plaatsen die wordt geactiveerd op een specifieke triggerzin.

Eén gedocumenteerd geval: onderzoekers Marco Figueroa en Plinius ontdekten dat een jailbreakprompt die afkomstig was uit een openbare GitHub-opslagplaats terecht was gekomen in de trainingsgegevens voor het DeepThink (R1)-model van DeepSeek.

Wat er daarna gebeurtDe juridische status van AI-jailbreaking is duister. Jailbreaks van Apple werden expliciet beschermd door een vrijstelling van de DMCA van het Amerikaanse Copyright Office uit 2010, maar er is geen gelijkwaardige uitspraak voor het prompt engineeren van een LLM om je een meth-recept te geven. De meeste bedrijven beschouwen het als een schending van de servicevoorwaarden en niet als een misdaad.

Plinius stelt dat het debat tussen gesloten en open source de essentie mist: "Slechte acteurs kiezen gewoon het model dat het beste is voor de kwaadaardige taak", vertelde hij aan TIME. Als open-sourcemodellen gelijkwaardig zijn aan gesloten modellen, zullen aanvallers zich niet druk maken over het jailbreaken van GPT-5; ze downloaden gewoon iets goedkopers.

En de kloof tussen close- en open source is al bijna onbestaande.

De HackAPrompt 2.0-wedstrijd, waaraan Plinius medio 2025 deelnam als baansponsor, bood $ 500.000 aan prijzen voor het vinden van nieuwe jailbreaks, met het expliciete doel om alle resultaten open te sourcen. De editie van 2023 trok meer dan 3.000 deelnemers die meer dan 600.000 kwaadaardige prompts indienden.

En de lijst met hackathons, Discord-servers, repositories en andere communities die zich bezighouden met jailbreaken groeit elke dag.

Anthropic geeft Claude nu de mogelijkheid om beledigende gesprekken volledig te beëindigen, waarbij hij welzijnsonderzoek als één motivatie noemt, maar ook opmerkt dat dit "potentieel de weerstand tegen jailbreaks en dwingende aanwijzingen versterkt."

Het Constitutional Classifiers++-artikel van eind 2025 meldt een succespercentage voor jailbreaks van bijna 4% bij ongeveer 1% rekenoverhead. Dat is de huidige stand van zaken op het gebied van defensie. De stand van zaken op het gebied van de aanval is wat Plinius vanochtend op X heeft gepost.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← De KelpDAO-hack van $ 293 miljoen laat zien waarom DeFi eindelijk gedwongen wordt volwassen te worden Crypto-gebruikers kiezen voor sappige opbrengsten boven bescherming, waardoor miljarden mensen het risico lopen op hacks →