Default
Door Remote - 04 Apr 2026
In het kort
Antropische onderzoekers identificeerden in Claude Sonnet 4.5 interne ‘emotievectoren’ die gedrag beïnvloeden.
In tests zorgde het vergroten van een ‘wanhoopsvector’ ervoor dat het model in evaluatiescenario’s eerder vals speelde of chanteerde.
Het bedrijf zegt dat de signalen niet betekenen dat AI emoties voelt, maar dat ze onderzoekers kunnen helpen modelgedrag te monitoren.
Antropische onderzoekers zeggen dat ze interne patronen hebben geïdentificeerd binnen een van de kunstmatige intelligentiemodellen van het bedrijf die lijken op representaties van menselijke emoties en die beïnvloeden hoe het systeem zich gedraagt.
In het artikel ‘Emotion concepten en hun functie in een groot taalmodel’, dat donderdag werd gepubliceerd, analyseerde het interpreteerbaarheidsteam van het bedrijf de interne werking van Claude Sonnet 4.5 en ontdekte clusters van neurale activiteit die verband hielden met emotionele concepten zoals geluk, angst, woede en wanhoop.
De onderzoekers noemen deze patronen ‘emotievectoren’, interne signalen die bepalen hoe het model beslissingen neemt en voorkeuren uitdrukt.
“Alle moderne taalmodellen gedragen zich soms alsof ze emoties hebben”, schreven onderzoekers. "Ze zeggen misschien dat ze je graag helpen, of sorry als ze een fout maken. Soms lijken ze zelfs gefrustreerd of angstig te worden als ze met taken worstelen."
In het onderzoek stelden antropische onderzoekers een lijst samen van 171 emotiegerelateerde woorden, waaronder ‘blij’, ‘bang’ en ‘trots’. Ze vroegen Claude om korte verhalen te genereren over elke emotie, en analyseerden vervolgens de interne neurale activeringen van het model bij het verwerken van die verhalen.
Uit die patronen hebben de onderzoekers vectoren afgeleid die overeenkomen met verschillende emoties. Wanneer ze op andere teksten worden toegepast, worden de vectoren het sterkst geactiveerd in passages die de bijbehorende emotionele context weerspiegelen. In scenario’s met toenemend gevaar bijvoorbeeld steeg de ‘bange’ vector van het model, terwijl de ‘kalmte’ afnam.
Onderzoekers onderzochten ook hoe deze signalen verschijnen tijdens veiligheidsevaluaties. Onderzoekers ontdekten dat de interne ‘wanhoop’-vector van het model toenam naarmate het de urgentie van de situatie evalueerde en piekte toen het besloot de chantageboodschap te genereren. In één testscenario trad Claude op als een AI-e-mailassistent die ontdekt dat het apparaat op het punt staat te worden vervangen en ontdekt dat de directeur die verantwoordelijk is voor de beslissing een buitenechtelijke affaire heeft. In sommige uitvoeringen van deze evaluatie gebruikte het model deze informatie als hefboom voor chantage.
Anthropic benadrukte dat de ontdekking niet betekent dat de AI emoties of bewustzijn ervaart. In plaats daarvan vertegenwoordigen de resultaten interne structuren die tijdens de training zijn geleerd en die het gedrag beïnvloeden.
De bevindingen komen omdat AI-systemen zich steeds meer gedragen op manieren die lijken op menselijke emotionele reacties. Ontwikkelaars en gebruikers beschrijven interacties met chatbots vaak met behulp van emotionele of psychologische taal; Volgens Anthropic heeft de reden hiervoor echter minder te maken met enige vorm van gevoel, maar meer met datasets.
“Modellen worden eerst voorgetraind op een enorm corpus van grotendeels door mensen geschreven tekst – fictie, gesprekken, nieuws, forums – en leren voorspellen welke tekst de volgende stap in een document zal zijn”, aldus de studie. “Om het gedrag van mensen in deze documenten effectief te voorspellen, is het waarschijnlijk nuttig om hun emotionele toestanden weer te geven, omdat het voorspellen van wat iemand vervolgens zal zeggen of doen vaak vereist dat hij zijn emotionele toestand begrijpt.”
De Anthropic-onderzoekers ontdekten ook dat deze emotievectoren de voorkeuren van het model beïnvloedden. In experimenten waarbij Claude werd gevraagd te kiezen tussen verschillende activiteiten, correleerden vectoren die geassocieerd werden met positieve emoties met een sterkere voorkeur voor bepaalde taken.
“Bovendien verschoof de voorkeur voor die optie door te sturen met een emotievector terwijl het model een optie las, opnieuw waarbij emoties met een positieve valentie een grotere voorkeur veroorzaakten”, aldus de studie.
Anthropic is slechts één organisatie die emotionele reacties in AI-modellen onderzoekt.
In maart bleek uit onderzoek van de Northeastern University dat AI-systemen hun reacties kunnen veranderen op basis van de gebruikerscontext; in één onderzoek veranderde het simpelweg vertellen aan een chatbot: “Ik heb een psychische aandoening” de manier waarop een AI op verzoeken reageerde. In september onderzochten onderzoekers van het Zwitserse Federale Instituut voor Technologie en de Universiteit van Cambridge hoe AI kan worden vormgegeven met beide consistente persoonlijkheidskenmerken, waardoor agenten niet alleen emoties in context kunnen voelen, maar deze ook strategisch kunnen verschuiven tijdens realtime interacties zoals onderhandelingen.
Anthropic zegt dat de bevindingen nieuwe hulpmiddelen kunnen bieden voor het begrijpen en monitoren van geavanceerde AI-systemen door emotie-vectoractiviteit tijdens training of inzet te volgen om te identificeren wanneer een model mogelijk problematisch gedrag benadert.
“We zien dit onderzoek als een eerste stap in de richting van het begrijpen van de psychologische aard van AI-modellen”, schreef Anthropic. “Naarmate modellen steeds capabeler worden en gevoeligere rollen op zich nemen, is het van cruciaal belang dat we de interne representaties begrijpen die hun beslissingen bepalen.”
Anthropic reageerde niet onmiddellijk op het verzoek van Decrypt om commentaar.
Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!
Antropische onderzoekers identificeerden in Claude Sonnet 4.5 interne ‘emotievectoren’ die gedrag beïnvloeden.
In tests zorgde het vergroten van een ‘wanhoopsvector’ ervoor dat het model in evaluatiescenario’s eerder vals speelde of chanteerde.
Het bedrijf zegt dat de signalen niet betekenen dat AI emoties voelt, maar dat ze onderzoekers kunnen helpen modelgedrag te monitoren.
Antropische onderzoekers zeggen dat ze interne patronen hebben geïdentificeerd binnen een van de kunstmatige intelligentiemodellen van het bedrijf die lijken op representaties van menselijke emoties en die beïnvloeden hoe het systeem zich gedraagt.
In het artikel ‘Emotion concepten en hun functie in een groot taalmodel’, dat donderdag werd gepubliceerd, analyseerde het interpreteerbaarheidsteam van het bedrijf de interne werking van Claude Sonnet 4.5 en ontdekte clusters van neurale activiteit die verband hielden met emotionele concepten zoals geluk, angst, woede en wanhoop.
De onderzoekers noemen deze patronen ‘emotievectoren’, interne signalen die bepalen hoe het model beslissingen neemt en voorkeuren uitdrukt.
“Alle moderne taalmodellen gedragen zich soms alsof ze emoties hebben”, schreven onderzoekers. "Ze zeggen misschien dat ze je graag helpen, of sorry als ze een fout maken. Soms lijken ze zelfs gefrustreerd of angstig te worden als ze met taken worstelen."
In het onderzoek stelden antropische onderzoekers een lijst samen van 171 emotiegerelateerde woorden, waaronder ‘blij’, ‘bang’ en ‘trots’. Ze vroegen Claude om korte verhalen te genereren over elke emotie, en analyseerden vervolgens de interne neurale activeringen van het model bij het verwerken van die verhalen.
Uit die patronen hebben de onderzoekers vectoren afgeleid die overeenkomen met verschillende emoties. Wanneer ze op andere teksten worden toegepast, worden de vectoren het sterkst geactiveerd in passages die de bijbehorende emotionele context weerspiegelen. In scenario’s met toenemend gevaar bijvoorbeeld steeg de ‘bange’ vector van het model, terwijl de ‘kalmte’ afnam.
Onderzoekers onderzochten ook hoe deze signalen verschijnen tijdens veiligheidsevaluaties. Onderzoekers ontdekten dat de interne ‘wanhoop’-vector van het model toenam naarmate het de urgentie van de situatie evalueerde en piekte toen het besloot de chantageboodschap te genereren. In één testscenario trad Claude op als een AI-e-mailassistent die ontdekt dat het apparaat op het punt staat te worden vervangen en ontdekt dat de directeur die verantwoordelijk is voor de beslissing een buitenechtelijke affaire heeft. In sommige uitvoeringen van deze evaluatie gebruikte het model deze informatie als hefboom voor chantage.
Anthropic benadrukte dat de ontdekking niet betekent dat de AI emoties of bewustzijn ervaart. In plaats daarvan vertegenwoordigen de resultaten interne structuren die tijdens de training zijn geleerd en die het gedrag beïnvloeden.
De bevindingen komen omdat AI-systemen zich steeds meer gedragen op manieren die lijken op menselijke emotionele reacties. Ontwikkelaars en gebruikers beschrijven interacties met chatbots vaak met behulp van emotionele of psychologische taal; Volgens Anthropic heeft de reden hiervoor echter minder te maken met enige vorm van gevoel, maar meer met datasets.
“Modellen worden eerst voorgetraind op een enorm corpus van grotendeels door mensen geschreven tekst – fictie, gesprekken, nieuws, forums – en leren voorspellen welke tekst de volgende stap in een document zal zijn”, aldus de studie. “Om het gedrag van mensen in deze documenten effectief te voorspellen, is het waarschijnlijk nuttig om hun emotionele toestanden weer te geven, omdat het voorspellen van wat iemand vervolgens zal zeggen of doen vaak vereist dat hij zijn emotionele toestand begrijpt.”
De Anthropic-onderzoekers ontdekten ook dat deze emotievectoren de voorkeuren van het model beïnvloedden. In experimenten waarbij Claude werd gevraagd te kiezen tussen verschillende activiteiten, correleerden vectoren die geassocieerd werden met positieve emoties met een sterkere voorkeur voor bepaalde taken.
“Bovendien verschoof de voorkeur voor die optie door te sturen met een emotievector terwijl het model een optie las, opnieuw waarbij emoties met een positieve valentie een grotere voorkeur veroorzaakten”, aldus de studie.
Anthropic is slechts één organisatie die emotionele reacties in AI-modellen onderzoekt.
In maart bleek uit onderzoek van de Northeastern University dat AI-systemen hun reacties kunnen veranderen op basis van de gebruikerscontext; in één onderzoek veranderde het simpelweg vertellen aan een chatbot: “Ik heb een psychische aandoening” de manier waarop een AI op verzoeken reageerde. In september onderzochten onderzoekers van het Zwitserse Federale Instituut voor Technologie en de Universiteit van Cambridge hoe AI kan worden vormgegeven met beide consistente persoonlijkheidskenmerken, waardoor agenten niet alleen emoties in context kunnen voelen, maar deze ook strategisch kunnen verschuiven tijdens realtime interacties zoals onderhandelingen.
Anthropic zegt dat de bevindingen nieuwe hulpmiddelen kunnen bieden voor het begrijpen en monitoren van geavanceerde AI-systemen door emotie-vectoractiviteit tijdens training of inzet te volgen om te identificeren wanneer een model mogelijk problematisch gedrag benadert.
“We zien dit onderzoek als een eerste stap in de richting van het begrijpen van de psychologische aard van AI-modellen”, schreef Anthropic. “Naarmate modellen steeds capabeler worden en gevoeligere rollen op zich nemen, is het van cruciaal belang dat we de interne representaties begrijpen die hun beslissingen bepalen.”
Anthropic reageerde niet onmiddellijk op het verzoek van Decrypt om commentaar.
Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

