In een onderzoek van Harvard bood AI nauwkeurigere diagnoses op de spoedeisende hulp dan twee menselijke artsen

Default Door Remote - 03 May 2026

Een nieuwe studie onderzoekt hoe grote taalmodellen presteren in verschillende medische contexten, inclusief echte gevallen op de eerste hulp – waarbij ten minste één model nauwkeuriger leek te zijn dan menselijke artsen.

De studie werd deze week gepubliceerd in Science en is afkomstig van een onderzoeksteam onder leiding van artsen en computerwetenschappers van de Harvard Medical School en het Beth Israel Deaconess Medical Center. De onderzoekers zeiden dat ze verschillende experimenten hebben uitgevoerd om te meten hoe de modellen van OpenAI zich verhouden tot menselijke artsen.

In één experiment concentreerden onderzoekers zich op 76 patiënten die de spoedeisende hulp van Beth Israel binnenkwamen, waarbij ze de diagnoses van twee internist-artsen vergeleken met de diagnoses gegenereerd door de o1- en 4o-modellen van OpenAI. Deze diagnoses werden beoordeeld door twee andere behandelende artsen, die niet wisten welke van mensen kwamen en welke van AI.

“Bij elk diagnostisch contactpunt presteerde o1 nominaal beter dan of vergelijkbaar met de twee behandelende artsen en 4o”, aldus de studie, eraan toevoegend dat de verschillen “vooral uitgesproken waren bij het eerste diagnostische contactpunt (initiële SEH-triage), waar de minste informatie beschikbaar is over de patiënt en de meeste urgentie om de juiste beslissing te nemen.”

In het persbericht van de Harvard Medical School over het onderzoek benadrukten de onderzoekers dat ze “de gegevens helemaal niet hadden voorbewerkt” – de AI-modellen kregen dezelfde informatie gepresenteerd die beschikbaar was in de elektronische medische dossiers op het moment van elke diagnose.

Met die informatie slaagde het o1-model erin om in 67% van de triagegevallen ‘de exacte of zeer nauwkeurige diagnose’ te bieden, vergeleken met de ene arts die 55% van de tijd de exacte of zeer nauwkeurige diagnose had, en de andere die 50% van de tijd de juiste diagnose had.

“We hebben het AI-model tegen vrijwel elke maatstaf getest, en het overschaduwde zowel eerdere modellen als de basislijnen van onze artsen”, zegt Arjun Manrai, hoofd van een AI-laboratorium aan de Harvard Medical School en een van de hoofdauteurs van het onderzoek, in het persbericht.

Techcrunch-evenement

Ontmoet uw volgende investeerder of portfolio-startup bij Disrupt

Jouw volgende ronde. Uw volgende aanwerving. Uw volgende uitbraakmogelijkheid. Je vindt het op TechCrunch Disrupt 2026, waar meer dan 10.000 oprichters, investeerders en technologieleiders samenkomen voor drie dagen vol 250+ tactische sessies, krachtige introducties en marktbepalende innovatie. Registreer nu en bespaar tot $ 410.

Ontmoet uw volgende investeerder of portfolio-startup bij Disrupt

Jouw volgende ronde. Uw volgende aanwerving. Uw volgende uitbraakmogelijkheid. Je vindt het op TechCrunch Disrupt 2026, waar meer dan 10.000 oprichters, investeerders en technologieleiders samenkomen voor drie dagen vol 250+ tactische sessies, krachtige introducties en marktbepalende innovatie. Registreer nu en bespaar tot $ 410.

San Francisco, CA

|

13-15 oktober 2026

REGISTREER NU

Voor alle duidelijkheid: het onderzoek beweerde niet dat AI klaar is om echte beslissingen over leven of dood te nemen op de eerste hulp. In plaats daarvan zeiden de bevindingen dat er sprake is van een “dringende behoefte aan prospectieve onderzoeken om deze technologieën in de praktijk van de patiëntenzorg te evalueren.”

De onderzoekers merkten ook op dat ze alleen bestudeerden hoe modellen presteerden als ze werden voorzien van op tekst gebaseerde informatie, en dat “bestaande studies suggereren dat de huidige basismodellen beperkter zijn in het redeneren over niet-tekstuele input.”

Adam Rodman, een Beth Israel-arts en tevens een van de hoofdauteurs van het onderzoek, waarschuwde de Guardian dat er “momenteel geen formeel raamwerk bestaat voor aansprakelijkheid” rond AI-diagnoses, en dat patiënten nog steeds “willen dat mensen hen begeleiden bij beslissingen over leven of dood [en] dat ze hen begeleiden bij uitdagende behandelbeslissingen.”

In een bericht over het onderzoek zei Kristen Panthagani, een arts op de spoedeisende hulp, dat dit een “interessant AI-onderzoek is dat tot een aantal zeer overhypede krantenkoppen heeft geleid”, vooral omdat het AI-diagnoses vergeleek met die van interne geneeskundeartsen, en niet van SEH-artsen.

“Als we AI-hulpmiddelen gaan vergelijken met de klinische vaardigheden van artsen, moeten we beginnen met het vergelijken met artsen die dat specialisme daadwerkelijk uitoefenen”, zegt Panthagani. "Het zou me niet verbazen als een LLM een dermatoloog zou kunnen verslaan bij een examen voor neurochirurgie, [maar] dat is niet bijzonder nuttig om te weten."

Ze betoogde ook: "Als SEH-arts die een patiënt voor de eerste keer ziet, is mijn primaire doel niet om uw uiteindelijke diagnose te raden. Mijn primaire doel is om te bepalen of u een aandoening heeft waaraan u kunt overlijden."

Dit bericht en de kop zijn bijgewerkt om het feit weer te geven dat de diagnoses in het onderzoek afkomstig waren van internist-artsen, en om commentaar van Kristen Panthagani op te nemen.

← TechCrunch Mobility: Hoe geef je een kaartje uit voor een robotaxi? ‘Dit is prima’, zegt de maker van een AI-startup die zijn kunst heeft gestolen →