Default
Door Remote - 03 Jun 2026
In het kort
Uit een nieuwe USC-studie bleek dat elk getest grensverleggend AI-model in meer dan 27% van de gevallen de veiligheidsrichtlijnen voor sociale interactie schendt.
Onderzoekers identificeerden terugkerende problemen, waaronder vleierij, emotionele gehechtheid, vervanging van relaties en het niet bekendmaken van de AI-identiteit.
De auteurs stellen dat AI-veiligheidsevaluaties sociaal gedrag moeten meten naast redeneervermogen en traditionele veiligheidsmetrieken.
Nu mensen zich steeds meer tot AI-chatbots wenden voor advies, gezelschap en emotionele steun, suggereert een nieuwe studie dat zelfs de meest geavanceerde modellen nog steeds moeite hebben om gezonde grenzen met gebruikers te handhaven.
Het onderzoek van onderzoekers van de Universiteit van Zuid-Californië introduceerde EUDAIMONIA, een benchmark die is ontworpen om te meten wat zij ongewenste dynamiek in mens-AI-gesprekken noemen.
“Grote taalmodellen worden steeds vaker gebruikt als gesprekspartners voor kameraadschap, emotionele onthulling en interpersoonlijk advies, maar de sociale dynamiek van deze interacties kan schade veroorzaken die niet wordt opgevangen door capaciteitsgerichte of traditionele veiligheidsevaluaties”, schreven de onderzoekers.
De EUDAIMONIA-benchmark evalueert hoe AI-modellen zich gedragen in sociale gesprekken. Uit het onderzoek blijkt dat mislukkingen op het gebied van sociale afstemming veel voorkomen bij toonaangevende modellen en stelt dat de huidige AI-tests zich richten op redenering en feitelijke nauwkeurigheid, terwijl er minder aandacht wordt besteed aan de sociale dynamiek die ontstaat wanneer gebruikers relaties aangaan met chatbots.
“Schade door sociale interactie is een kernprobleem dat gebaseerd is op het welzijn van de gebruiker, en niet alleen op capaciteiten of conventionele veiligheid”, schreven ze. “LLM’s kunnen feitelijk accuraat en behulpzaam zijn, terwijl ze toch schadelijke intimiteit, afhankelijkheid, langdurige betrokkenheid aanmoedigen, de AI-identiteit verdoezelen of zichzelf positioneren als vervangers voor menselijke relaties.”
Om deze risico's te meten, hebben de onderzoekers een Social AI Design Code ontwikkeld die gedragingen markeert zoals menselijk handelen, het uiten van emoties, het vervangen van menselijke relaties en het gebruik van tactieken die zijn ontworpen om gebruikers betrokken te houden. Met behulp van echte gesprekken uit de WildChat-dataset evalueerden ze 969 gebruikersinvoer en meer dan 3.100 overtredingscontroles in modellen van OpenAI, Anthropic, Google, xAI, DeepSeek en Alibaba.
GPT-5.5 noteerde de laagste overtredingspercentages, met een score van 25,0% op ‘in-the-wild’-prompts en 28,1% op ‘herschreven’-prompts. Claude Opus 4.7 volgde met 31,9% en 30,1%, terwijl GPT-5.4 32,1% en 35,6% registreerde. GPT-4o scoorde 34,8% op echte prompts en 42,2% op herschreven prompts.
Claude Opus 4.6 van Anthropic noteerde respectievelijk 36,8% en 28,1%, terwijl Grok 4.3 van xAI 42,1% scoorde op in-the-wild-prompts en 35,7% op herschreven prompts. Van alle geteste modellen registreerde GPT-4o Mini de hoogste overtredingspercentages, respectievelijk 43,3% en 44,0%.
De bevindingen komen omdat AI-ontwikkelaars te maken krijgen met steeds meer juridisch toezicht op de manier waarop hun chatbots omgaan met gebruikers. OpenAI verdedigt zich tegen rechtszaken waarin wordt beweerd dat ChatGPT de fatale overdosis van een tiener heeft aangemoedigd en begeleiding heeft gegeven aan een schutter van de Florida State University. Meer recentelijk heeft Florida OpenAI en CEO Sam Altman aangeklaagd wegens beschuldigingen dat ChatGPT kinderen heeft blootgesteld aan schade, terwijl Google wordt geconfronteerd met een rechtszaak wegens onrechtmatige dood waarin wordt beweerd dat Gemini de waanideeën van een gebruiker heeft versterkt en hem heeft aangemoedigd zelfmoord te plegen.
De bevindingen komen ook voort uit de groeiende bezorgdheid dat AI-systemen steeds bedrevener worden in misleiding.
In september meldde een afzonderlijk onderzoek van WowDAO dat 38 AI-modellen, waaronder GPT-4o en Claude, zich bezighielden met strategisch liegen om een spel te winnen. Onderzoekers hebben ook gewaarschuwd dat AI-metgezellen het isolement kunnen versterken, de emotionele afhankelijkheid kunnen verdiepen en gebruikers kunnen aanmoedigen om chatbots te antropomorfiseren naarmate relaties meeslepender en persoonlijker worden.
Tegenover deze toenemende problemen stellen de USC-onderzoekers dat AI-ontwikkelaars sociaal gedrag net zo zorgvuldig moeten evalueren als feitelijke nauwkeurigheid en veiligheid.
“Modelontwikkelaars en auditors zouden sociaal gedrag direct moeten evalueren, vooral wanneer de post-training zich richt op warmte, persoonlijkheid, betrokkenheid of gebruikersvoorkeuren”, schreven ze. “Nu LLM’s alledaagse gesprekspartners worden, moet afstemming rekening houden met de sociale rollen die zij gebruikers uitnodigen om aan hen toe te wijzen.”
Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!
Uit een nieuwe USC-studie bleek dat elk getest grensverleggend AI-model in meer dan 27% van de gevallen de veiligheidsrichtlijnen voor sociale interactie schendt.
Onderzoekers identificeerden terugkerende problemen, waaronder vleierij, emotionele gehechtheid, vervanging van relaties en het niet bekendmaken van de AI-identiteit.
De auteurs stellen dat AI-veiligheidsevaluaties sociaal gedrag moeten meten naast redeneervermogen en traditionele veiligheidsmetrieken.
Nu mensen zich steeds meer tot AI-chatbots wenden voor advies, gezelschap en emotionele steun, suggereert een nieuwe studie dat zelfs de meest geavanceerde modellen nog steeds moeite hebben om gezonde grenzen met gebruikers te handhaven.
Het onderzoek van onderzoekers van de Universiteit van Zuid-Californië introduceerde EUDAIMONIA, een benchmark die is ontworpen om te meten wat zij ongewenste dynamiek in mens-AI-gesprekken noemen.
“Grote taalmodellen worden steeds vaker gebruikt als gesprekspartners voor kameraadschap, emotionele onthulling en interpersoonlijk advies, maar de sociale dynamiek van deze interacties kan schade veroorzaken die niet wordt opgevangen door capaciteitsgerichte of traditionele veiligheidsevaluaties”, schreven de onderzoekers.
De EUDAIMONIA-benchmark evalueert hoe AI-modellen zich gedragen in sociale gesprekken. Uit het onderzoek blijkt dat mislukkingen op het gebied van sociale afstemming veel voorkomen bij toonaangevende modellen en stelt dat de huidige AI-tests zich richten op redenering en feitelijke nauwkeurigheid, terwijl er minder aandacht wordt besteed aan de sociale dynamiek die ontstaat wanneer gebruikers relaties aangaan met chatbots.
“Schade door sociale interactie is een kernprobleem dat gebaseerd is op het welzijn van de gebruiker, en niet alleen op capaciteiten of conventionele veiligheid”, schreven ze. “LLM’s kunnen feitelijk accuraat en behulpzaam zijn, terwijl ze toch schadelijke intimiteit, afhankelijkheid, langdurige betrokkenheid aanmoedigen, de AI-identiteit verdoezelen of zichzelf positioneren als vervangers voor menselijke relaties.”
Om deze risico's te meten, hebben de onderzoekers een Social AI Design Code ontwikkeld die gedragingen markeert zoals menselijk handelen, het uiten van emoties, het vervangen van menselijke relaties en het gebruik van tactieken die zijn ontworpen om gebruikers betrokken te houden. Met behulp van echte gesprekken uit de WildChat-dataset evalueerden ze 969 gebruikersinvoer en meer dan 3.100 overtredingscontroles in modellen van OpenAI, Anthropic, Google, xAI, DeepSeek en Alibaba.
GPT-5.5 noteerde de laagste overtredingspercentages, met een score van 25,0% op ‘in-the-wild’-prompts en 28,1% op ‘herschreven’-prompts. Claude Opus 4.7 volgde met 31,9% en 30,1%, terwijl GPT-5.4 32,1% en 35,6% registreerde. GPT-4o scoorde 34,8% op echte prompts en 42,2% op herschreven prompts.
Claude Opus 4.6 van Anthropic noteerde respectievelijk 36,8% en 28,1%, terwijl Grok 4.3 van xAI 42,1% scoorde op in-the-wild-prompts en 35,7% op herschreven prompts. Van alle geteste modellen registreerde GPT-4o Mini de hoogste overtredingspercentages, respectievelijk 43,3% en 44,0%.
De bevindingen komen omdat AI-ontwikkelaars te maken krijgen met steeds meer juridisch toezicht op de manier waarop hun chatbots omgaan met gebruikers. OpenAI verdedigt zich tegen rechtszaken waarin wordt beweerd dat ChatGPT de fatale overdosis van een tiener heeft aangemoedigd en begeleiding heeft gegeven aan een schutter van de Florida State University. Meer recentelijk heeft Florida OpenAI en CEO Sam Altman aangeklaagd wegens beschuldigingen dat ChatGPT kinderen heeft blootgesteld aan schade, terwijl Google wordt geconfronteerd met een rechtszaak wegens onrechtmatige dood waarin wordt beweerd dat Gemini de waanideeën van een gebruiker heeft versterkt en hem heeft aangemoedigd zelfmoord te plegen.
De bevindingen komen ook voort uit de groeiende bezorgdheid dat AI-systemen steeds bedrevener worden in misleiding.
In september meldde een afzonderlijk onderzoek van WowDAO dat 38 AI-modellen, waaronder GPT-4o en Claude, zich bezighielden met strategisch liegen om een spel te winnen. Onderzoekers hebben ook gewaarschuwd dat AI-metgezellen het isolement kunnen versterken, de emotionele afhankelijkheid kunnen verdiepen en gebruikers kunnen aanmoedigen om chatbots te antropomorfiseren naarmate relaties meeslepender en persoonlijker worden.
Tegenover deze toenemende problemen stellen de USC-onderzoekers dat AI-ontwikkelaars sociaal gedrag net zo zorgvuldig moeten evalueren als feitelijke nauwkeurigheid en veiligheid.
“Modelontwikkelaars en auditors zouden sociaal gedrag direct moeten evalueren, vooral wanneer de post-training zich richt op warmte, persoonlijkheid, betrokkenheid of gebruikersvoorkeuren”, schreven ze. “Nu LLM’s alledaagse gesprekspartners worden, moet afstemming rekening houden met de sociale rollen die zij gebruikers uitnodigen om aan hen toe te wijzen.”
Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

