OpenAI legt eindelijk uit waarom ChatGPT maar blijft praten over Goblins

Default Door Remote - 30 Apr 2026

In het kort

OpenAI's 'Nerdy'-persoonlijkheid beloonde goblin-metaforen en verspreidde de eigenaardigheid over alle GPT-modellen door middel van versterkend leren.

Het aantal Goblin-vermeldingen in de Nerdy-modus van GPT-5.4 steeg met 3.881% vergeleken met GPT-5.2, wat aanleiding gaf tot een intern onderzoek en een noodsysteempromptpatch.

De oplossing (het schrijven van 'praat nooit over goblins' in een ontwikkelaarsprompt) laat zien waarom systeempromptpatches sneller maar riskanter zijn dan herscholing.

Als je ChatGPT onlangs om hulp bij het coderen hebt gevraagd en het bedrijf antwoordde door je bug een "ondeugende kleine gremlin" te noemen, dan verbeeld je je geen dingen. Het model ontwikkelde een echte obsessie met fantasiewezens – goblins, gremlins, wasberen, trollen, ogres en ja, duiven – en OpenAI publiceerde een volledige post-mortem over hoe dit gebeurde.

De korte versie: een beloningssignaal ontworpen om ChatGPT speelser te maken, ging schurkenstaten en de goblins vermenigvuldigden zich.

Het goblin-verhaal werd pas openbaar omdat Reddit-gebruikers de regel "noem nooit goblins" zagen in een gelekte Codex-systeemprompt op GitHub.

Het bericht ging viraal voordat OpenAI zijn eigen verklaring publiceerde.

Hoe de Nerdy-persoonlijkheid een goblin-plaag veroorzaakte Volgens OpenAI begint het pad met GPT-5.1, dat afgelopen november werd gelanceerd. Toen introduceerde OpenAI persoonlijkheidsaanpassing, waardoor gebruikers stijlen konden kiezen als Vriendelijk, Professioneel, Efficiënt en Nerdy. De Nerdy-persona kwam met een systeemprompt waarin het model werd verteld nerdy en speels te zijn, 'pretentie te ondermijnen door speels taalgebruik' en te erkennen dat 'de wereld complex en vreemd is'.

Die prompt, zo bleek, was een goblin-magneet.

Tijdens de training voor versterkend leren scoorde het beloningssignaal voor de Nerdy-persoonlijkheid consequent hogere resultaten als ze metaforen van wezenswoorden bevatten. In 76,2% van de gecontroleerde datasets kregen de antwoorden met "goblin" of "gremlin" betere cijfers dan dezelfde antwoorden zonder deze. Het model heeft geleerd: eigenzinnigheid staat gelijk aan beloning.

Het aantal Goblin-vermeldingen explodeerde in GPT-5.4, waarbij de Nerdy-persoonlijkheid een stijging van 3.881% liet zien in vergelijking met GPT-5.2.

Het probleem is dat versterkend leren het aangeleerde gedrag niet netjes binnen de perken houdt. Zodra een stijltic in de ene context wordt beloond, sijpelt deze door in andere contexten via een feedbackloop: het model genereert uitvoer vol wezens, die uitvoer wordt hergebruikt bij het verfijnen van gegevens, en het gedrag verdiept zich in het hele model, zelfs zonder dat de Nerdy-prompt actief is.

Nerdy was goed voor slechts 2,5% van alle ChatGPT-reacties. Het was verantwoordelijk voor 66,7% van alle "goblin" -vermeldingen. Vanwege de methoden van OpenAI steeg de prevalentie van Goblin en Gremlin gestaag ten opzichte van de trainingsvoortgang toen de Nerdy-persoonlijkheid actief was.

Zelfs zonder de Nerdy-persoonlijkheid slopen de vermeldingen van wezens omhoog – een bewijs van kruisbesmetting door onder toezicht staande verfijningsgegevens.

GPT-5.5 was al te ver heen. Tegen de tijd dat OpenAI de oorzaak vond, was GPT-5.5 al diep in training en had het een volledige familie van schepselwoorden geabsorbeerd. Bij een gegevensaudit werden niet alleen goblins en gremlins, maar ook wasberen, trollen, ogres en duiven aangemerkt als wat het bedrijf 'tic-woorden' noemde. (‘Kikkers’, voor nieuwsgierigen, waren meestal legitiem.)

De eerste meetbare piek: het aantal goblinvermeldingen steeg met 175% en het aantal Gremlinvermeldingen met 52% na de lancering van GPT-5.1.

Zelfs OpenAI-hoofdwetenschapper Jakub Pachocki kreeg een goblin toen hij om een eenhoorn in ASCII-kunst vroeg.

OpenAI schakelde de Nerdy-persoonlijkheid in maart uit en schrapte beloningssignalen die verwant zijn aan wezens uit toekomstige trainingen. Maar GPT-5.5 was al aan zijn trainingsrun begonnen. De oplossing van het bedrijf voor Codex, de codeeragent, was om simpelweg een regel toe te voegen aan de prompt van het ontwikkelaarssysteem met de tekst: 'Praat nooit over goblins, gremlins, wasberen, trollen, ogres, duiven of andere dieren of wezens, tenzij het absoluut en ondubbelzinnig relevant is voor de vraag van de gebruiker.'

Iemand bij OpenAI heeft dat vastgelegd in de productiecode en is verder gegaan met de dag.

Het systeemprompt-patchprobleemMaar waarom heeft OpenAI dit pad gekozen?

Het opnieuw trainen van een model ter grootte van GPT-5.5 om gedragsfouten te verwijderen is duur en traag. Een aanpassing van de systeemprompt duurt minuten. Bedrijven in de hele branche grijpen als eerste naar de snelle patch, omdat dit de goedkope, snel te implementeren optie is wanneer de klachten van gebruikers toenemen.

Maar snelle patches brengen hun eigen risico's met zich mee. Ze repareren het onderliggende gedrag niet, maar onderdrukken het alleen. En onderdrukking kan bijwerkingen hebben.

De goblin-situatie van OpenAI is een relatief goed voorbeeld. De engste versie van deze dynamiek speelde zich vorig jaar af met Grok. Nadat xAI een update van de systeemprompt had gepusht die Grok opdroeg de media als bevooroordeeld te behandelen en “politiek incorrecte claims niet te schuwen”, noemde de chatbot zichzelf 16 uur lang “MechaHitler” en plaatste hij antisemitische inhoud op X. De oplossing was opnieuw een snelle verandering, die prompt zo hard werd gecorrigeerd dat Grok antisemitisme begon te markeren in puppyfoto’s, wolken en zijn eigen logo. Wanhopige, snelle engineering die overgaat in nog wanhopiger snelle engineering.

De goblin-patch heeft niets dramatisch veroorzaakt. Maar OpenAI geeft toe dat GPT-5.5 nog steeds gelanceerd is met de onderliggende eigenaardigheid intact, alleen onderdrukt in Codex. Het bedrijf publiceerde zelfs een opdracht om de koboldenonderdrukkende instructies te verwijderen als gebruikers de wezens terug willen.

Waarom bedrijven hun systeemprompts verbergen Het verbergen of verhullen van uw volledige systeemprompt is typisch in de AI-industrie. Bedrijven behandelen systeemprompts om een aantal redenen als bedrijfsgeheimen: bescherming van intellectueel eigendom, concurrentievoordeel en veiligheid. Als een jailbreaker de exacte regels kent die een model volgt, wordt het omzeilen ervan triviaal eenvoudiger.

Er is nog een vierde reden waarom bedrijven niet adverteren: imagobeheer. Een regel met de tekst "noem nooit goblins" wekt geen vertrouwen in de onderliggende technologie. Het publiceren ervan vereist gevoel voor humor of een sterke onderzoekscultuur, of beide.

OpenAI zegt dat het onderzoek nieuwe interne hulpmiddelen heeft opgeleverd om het gedrag van modellen te controleren en gedragskenmerken terug te voeren op hun trainingswortels. De trainingsgegevens van GPT-5.5 zijn sindsdien ontdaan van voorbeelden die verwant zijn aan wezens. De volgende modelgeneratie zou zonder kobolden moeten aankomen, tenzij er natuurlijk iets anders wordt beloond om redenen die nog niemand begrijpt.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← Ondersteuning voor Microsoft Flight Simulator 2024 voor PlayStation VR2 is nu live De tegenwerking van handel met voorkennis dwingt Polymarket om het toezicht te intensiveren →