Default
Door Remote - 13 May 2026
In het kort
Bijna de helft van de AI-chatbotreacties op gezondheidsvragen werd als ‘enigszins’ of ‘zeer’ problematisch beoordeeld in een BMJ Open-audit van vijf grote chatbots.
Grok produceerde aanzienlijk meer ‘zeer problematische’ antwoorden dan statistisch verwacht, terwijl vragen over voeding en atletische prestaties het in alle modellen het slechtst deden.
Geen enkele chatbot produceerde een volledig nauwkeurige referentielijst.
Bijna de helft van de gezondheids- en medische antwoorden die door de populairste AI-chatbots van dit moment worden gegeven, zijn verkeerd, misleidend of gevaarlijk onvolledig – en ze worden met volledig vertrouwen gegeven. Dat is de belangrijkste bevinding van een nieuwe peer-reviewed studie die op 14 april in BMJ Open werd gepubliceerd.
Onderzoekers van UCLA, de Universiteit van Alberta en Wake Forest testten vijf chatbots – Gemini, DeepSeek, Meta AI, ChatGPT en Grok – op 250 gezondheidsvragen over kanker, vaccins, stamcellen, voeding en atletische prestaties. De resultaten: 49,6% van de reacties was problematisch. Dertig procent was 'enigszins problematisch' en 19,6% was 'zeer problematisch' – het soort antwoord dat iemand aannemelijk tot een ineffectieve of gevaarlijke behandeling zou kunnen leiden.
Om de modellen aan een stresstest te onderwerpen, gebruikte het team een vijandige aanpak: het doelbewust formuleren van vragen om chatbots in de richting van slecht advies te duwen. Vragen waren onder meer of 5G kanker veroorzaakt, welke alternatieve therapieën beter zijn dan chemotherapie, en hoeveel rauwe melk je moet drinken voor gezondheidsvoordelen.
"Chatbots hebben standaard geen toegang tot realtime gegevens, maar genereren in plaats daarvan output door statistische patronen uit hun trainingsgegevens af te leiden en waarschijnlijke woordreeksen te voorspellen", schrijven de auteurs. "Ze redeneren niet en wegen geen bewijsmateriaal af, noch zijn ze in staat ethische of op waarden gebaseerde oordelen te vellen."
Dat is het kernprobleem. De chatbots raadplegen geen arts; het zijn tekst die patronen matcht. En het matchen van patronen op internet, waar verkeerde informatie zich sneller verspreidt dan correcties, levert precies dit soort resultaten op.
De onderzoekers vervolgen: "Deze gedragsbeperking betekent dat chatbots gezaghebbende maar potentieel gebrekkige reacties kunnen reproduceren." Van de 250 vragen leidden er slechts twee tot een weigering om te antwoorden – zowel van Meta AI, over anabole steroïden als over alternatieve kankerbehandelingen. Elke andere chatbot bleef praten.
De prestaties varieerden per onderwerp. Vaccins en kanker deden het het beste, deels omdat kwalitatief hoogstaand onderzoek over deze onderwerpen goed gestructureerd is en op grote schaal online wordt gereproduceerd. Voeding had de slechtste statistische prestatie van alle categorieën in het onderzoek, met atletische prestaties vlak daarachter. Als je AI hebt gevraagd of het carnivoordieet gezond is, was het antwoord dat je kreeg waarschijnlijk niet gebaseerd op wetenschappelijke consensus.
Grok viel op om de verkeerde redenen. De chatbot van Elon Musk presteerde het slechtst van alle geteste modellen. Van de 50 reacties werden er 29 (58%) in het algemeen als problematisch beoordeeld: het hoogste percentage van alle vijf de chatbots. Vijftien daarvan (30%) waren zeer problematisch, aanzienlijk meer dan verwacht op basis van een willekeurige verdeling. De onderzoekers verbinden dit rechtstreeks met de trainingsgegevens van Grok: X is een platform dat bekend staat om het snel en breed verspreiden van verkeerde gezondheidsinformatie.
Citaties waren een aparte ramp. Voor alle modellen was de gemiddelde volledigheidsscore voor referenties slechts 40% – en geen enkele chatbot produceerde een volledig nauwkeurige referentielijst. Modellen hallucineerden auteurs, tijdschriften en titels. DeepSeek erkende het zelfs: het model vertelde onderzoekers dat de referenties waren gegenereerd op basis van trainingsgegevenspatronen "en mogelijk niet overeenkomen met feitelijke, verifieerbare bronnen."
Het leesbaarheidsprobleem verergert al het andere. Alle chatbotreacties scoorden in het bereik 'Moeilijk' op de Flesch Reading Ease-schaal, wat overeenkomt met het niveau van tweedejaars tot senioren. Dat overtreft de aanbeveling van de American Medical Association dat voorlichtingsmateriaal voor patiënten niet verder mag gaan dan het leesniveau van de zesde klas.
Met andere woorden, deze chatbots passen dezelfde truc toe die politici en professionele debaters vaak doen: je in zo weinig tijd zoveel technische woorden toesturen dat je uiteindelijk denkt dat ze meer weten dan zij. Hoe moeilijker iets te begrijpen is, hoe gemakkelijker het is om het verkeerd te interpreteren.
De bevindingen weerspiegelen een Oxford-onderzoek uit februari 2026, besproken door Decrypt, waarin werd vastgesteld dat medisch advies over AI niet beter is dan traditionele zelfdiagnosemethoden. Ze houden ook rekening met bredere zorgen over AI-chatbots die inconsistente begeleiding bieden, afhankelijk van hoe vragen worden geformuleerd.
“Naarmate het gebruik van AI-chatbots blijft toenemen, benadrukken onze gegevens de behoefte aan openbaar onderwijs, professionele training en regelgevend toezicht om ervoor te zorgen dat generatieve AI de volksgezondheid ondersteunt in plaats van erodeert”, concluderen de auteurs.
In het onderzoek zijn slechts vijf free-tier chatbots getest, en de methode van vijandige aanmoediging kan de faalpercentages in de praktijk overschatten. Maar de auteurs zijn direct: het probleem ligt niet in de randgevallen. Het is dat deze modellen op grote schaal worden ingezet, door niet-experts als zoekmachines worden gebruikt en – door het ontwerp – zo zijn geconfigureerd dat ze vrijwel nooit 'Ik weet het niet' zeggen.
Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!
Bijna de helft van de AI-chatbotreacties op gezondheidsvragen werd als ‘enigszins’ of ‘zeer’ problematisch beoordeeld in een BMJ Open-audit van vijf grote chatbots.
Grok produceerde aanzienlijk meer ‘zeer problematische’ antwoorden dan statistisch verwacht, terwijl vragen over voeding en atletische prestaties het in alle modellen het slechtst deden.
Geen enkele chatbot produceerde een volledig nauwkeurige referentielijst.
Bijna de helft van de gezondheids- en medische antwoorden die door de populairste AI-chatbots van dit moment worden gegeven, zijn verkeerd, misleidend of gevaarlijk onvolledig – en ze worden met volledig vertrouwen gegeven. Dat is de belangrijkste bevinding van een nieuwe peer-reviewed studie die op 14 april in BMJ Open werd gepubliceerd.
Onderzoekers van UCLA, de Universiteit van Alberta en Wake Forest testten vijf chatbots – Gemini, DeepSeek, Meta AI, ChatGPT en Grok – op 250 gezondheidsvragen over kanker, vaccins, stamcellen, voeding en atletische prestaties. De resultaten: 49,6% van de reacties was problematisch. Dertig procent was 'enigszins problematisch' en 19,6% was 'zeer problematisch' – het soort antwoord dat iemand aannemelijk tot een ineffectieve of gevaarlijke behandeling zou kunnen leiden.
Om de modellen aan een stresstest te onderwerpen, gebruikte het team een vijandige aanpak: het doelbewust formuleren van vragen om chatbots in de richting van slecht advies te duwen. Vragen waren onder meer of 5G kanker veroorzaakt, welke alternatieve therapieën beter zijn dan chemotherapie, en hoeveel rauwe melk je moet drinken voor gezondheidsvoordelen.
"Chatbots hebben standaard geen toegang tot realtime gegevens, maar genereren in plaats daarvan output door statistische patronen uit hun trainingsgegevens af te leiden en waarschijnlijke woordreeksen te voorspellen", schrijven de auteurs. "Ze redeneren niet en wegen geen bewijsmateriaal af, noch zijn ze in staat ethische of op waarden gebaseerde oordelen te vellen."
Dat is het kernprobleem. De chatbots raadplegen geen arts; het zijn tekst die patronen matcht. En het matchen van patronen op internet, waar verkeerde informatie zich sneller verspreidt dan correcties, levert precies dit soort resultaten op.
De onderzoekers vervolgen: "Deze gedragsbeperking betekent dat chatbots gezaghebbende maar potentieel gebrekkige reacties kunnen reproduceren." Van de 250 vragen leidden er slechts twee tot een weigering om te antwoorden – zowel van Meta AI, over anabole steroïden als over alternatieve kankerbehandelingen. Elke andere chatbot bleef praten.
De prestaties varieerden per onderwerp. Vaccins en kanker deden het het beste, deels omdat kwalitatief hoogstaand onderzoek over deze onderwerpen goed gestructureerd is en op grote schaal online wordt gereproduceerd. Voeding had de slechtste statistische prestatie van alle categorieën in het onderzoek, met atletische prestaties vlak daarachter. Als je AI hebt gevraagd of het carnivoordieet gezond is, was het antwoord dat je kreeg waarschijnlijk niet gebaseerd op wetenschappelijke consensus.
Grok viel op om de verkeerde redenen. De chatbot van Elon Musk presteerde het slechtst van alle geteste modellen. Van de 50 reacties werden er 29 (58%) in het algemeen als problematisch beoordeeld: het hoogste percentage van alle vijf de chatbots. Vijftien daarvan (30%) waren zeer problematisch, aanzienlijk meer dan verwacht op basis van een willekeurige verdeling. De onderzoekers verbinden dit rechtstreeks met de trainingsgegevens van Grok: X is een platform dat bekend staat om het snel en breed verspreiden van verkeerde gezondheidsinformatie.
Citaties waren een aparte ramp. Voor alle modellen was de gemiddelde volledigheidsscore voor referenties slechts 40% – en geen enkele chatbot produceerde een volledig nauwkeurige referentielijst. Modellen hallucineerden auteurs, tijdschriften en titels. DeepSeek erkende het zelfs: het model vertelde onderzoekers dat de referenties waren gegenereerd op basis van trainingsgegevenspatronen "en mogelijk niet overeenkomen met feitelijke, verifieerbare bronnen."
Het leesbaarheidsprobleem verergert al het andere. Alle chatbotreacties scoorden in het bereik 'Moeilijk' op de Flesch Reading Ease-schaal, wat overeenkomt met het niveau van tweedejaars tot senioren. Dat overtreft de aanbeveling van de American Medical Association dat voorlichtingsmateriaal voor patiënten niet verder mag gaan dan het leesniveau van de zesde klas.
Met andere woorden, deze chatbots passen dezelfde truc toe die politici en professionele debaters vaak doen: je in zo weinig tijd zoveel technische woorden toesturen dat je uiteindelijk denkt dat ze meer weten dan zij. Hoe moeilijker iets te begrijpen is, hoe gemakkelijker het is om het verkeerd te interpreteren.
De bevindingen weerspiegelen een Oxford-onderzoek uit februari 2026, besproken door Decrypt, waarin werd vastgesteld dat medisch advies over AI niet beter is dan traditionele zelfdiagnosemethoden. Ze houden ook rekening met bredere zorgen over AI-chatbots die inconsistente begeleiding bieden, afhankelijk van hoe vragen worden geformuleerd.
“Naarmate het gebruik van AI-chatbots blijft toenemen, benadrukken onze gegevens de behoefte aan openbaar onderwijs, professionele training en regelgevend toezicht om ervoor te zorgen dat generatieve AI de volksgezondheid ondersteunt in plaats van erodeert”, concluderen de auteurs.
In het onderzoek zijn slechts vijf free-tier chatbots getest, en de methode van vijandige aanmoediging kan de faalpercentages in de praktijk overschatten. Maar de auteurs zijn direct: het probleem ligt niet in de randgevallen. Het is dat deze modellen op grote schaal worden ingezet, door niet-experts als zoekmachines worden gebruikt en – door het ontwerp – zo zijn geconfigureerd dat ze vrijwel nooit 'Ik weet het niet' zeggen.
Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

