Default
Door Remote - 29 May 2026
In het kort
Vijf grensverleggende AI-modellen waren het oneens over 67% van de 1.000 feitelijke factcheck-claims.
Er werd unaniem overeenstemming bereikt over slechts 328 claims.
Met een alfa van Krippendorff van 0,639 vallen de modellen onder de betrouwbaarheidsdrempel van 0,8.
Vraag vijf van 's werelds meest geavanceerde AI-systemen of een bewering waar is, en in twee derde van de gevallen zal er minstens één een ander antwoord geven. Dat is de conclusie van een nieuwe studie die deze maand werd gepubliceerd door onderzoeker Kosta Jordanov van Lenz Research.
Het onderzoek leverde GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro met Search en Sonar Pro dezelfde 1.000 real-world factcheck-claims op die door daadwerkelijke gebruikers waren ingediend. De modellen moesten een van de vier labels kiezen: waar, grotendeels waar, misleidend of onwaar.
Bij 672 van de 1.000 claims brak ten minste één model af van de meerderheid. In 34% van de gevallen was het meningsverschil ernstig: het ene model noemde een bewering waar, terwijl het andere het onwaar noemde.
“Dit zijn geen benchmarkitems met openbare antwoordsleutels – het zijn beweringen dat echte gebruikers ter verificatie zijn ingediend bij een platform voor factchecking”, luidt het onderzoek. “Per claim kan slechts één oordeelsbucket correct zijn, dus elk meningsverschil binnen het panel betekent dat het oordeel van ten minste één model inconsistent is onder deze rubriek van vier buckets.”
Eerdere onderzoeken naar AI-hallucinatie hebben aangetoond dat chatbots feiten verzinnen. Dat is één probleem. Dit is een andere. De modellen verzinnen niet noodzakelijkerwijs dingen, ze kunnen het gewoon niet eens worden over fundamentele feitelijke oordelen over hetzelfde materiaal.
Bij het onderzoek werd gebruik gemaakt van een opzet die het voor de AI-bedrijven moeilijker maakt om iets weg te redeneren. In plaats van claims uit standaardtestsets te halen – het soort dat vaak in trainingsgegevens lekt – gebruikten de onderzoekers claims die door echte mensen waren ingediend bij het factcheckplatform van Lenz. “Het is onwaarschijnlijk dat de meeste van deze beweringen zullen voorkomen in een trainingscorpus waaraan een gouden label is bevestigd – er is geen canonieke antwoordsleutel om patronen mee te matchen, geen benchmark-klassement om aan te verankeren”, merkt de krant op.
De statistische maatstaf voor overeenstemming, de alfa van Krippendorff genoemd, kwam uit op 0,639 op een schaal waarbij 1,0 perfecte overeenstemming betekent en 0 willekeurige kans betekent. De studie zegt dat dit duidt op “niet-triviale maar beperkte overeenstemming.” “De uitspraken van de modellen zijn eerder gestructureerd dan willekeurig, maar niet consistent genoeg om het panel als één verwisselbare rechter te behandelen”, merken onderzoekers op. Onderzoekers beschouwen alles onder de 0,8 over het algemeen als zwak.
Als alle vijf de modellen het eens waren – wat bij slechts 328 van de 1.000 claims gebeurde – waren ze het er bijna nooit over eens dat iets misleidend of grotendeels waar was. Slechts vier claims kregen een unaniem “misleidend” oordeel. Zero ontving unaniem ‘grotendeels waar’.
De onderzoekers gaven voorbeeldclaims waarbij de AI-modellen de meeste verschillen vertoonden, waaronder "De actieve portefeuille van de Wereldbank in Nigeria bedraagt in 2025 ruim 16,4 miljard dollar." ChatGPT 5.4 zei dat het "grotendeels waar" was, terwijl Gemini 3 Pro het "onwaar" noemde en zijn zustermodel Gemini 3 Pro + Search het als "misleidend" beoordeelde.
In een ander voorbeeld waren de modellen voorzien van de claim: “Donald Trump zei dat een aanval op Iran werd uitgesteld op verzoek van de Golfbondgenoten.” GPT-5.4 zei dat het onwaar was, Claude Opus 4.7 noemde het grotendeels waar, Gemini 3 Pro zei onwaar en Gemini 3 Pro + Search beoordeelde het als waar.
"Het panel komt samen tot definitieve uitspraken; het midden van de rubriek is waar deze breekt", ontdekten de onderzoekers. Er was alleen sprake van unanimiteit bij de uitersten: de bewering was óf zeker waar, óf beslist onwaar.
Dit is van belang omdat mensen zich steeds meer tot AI-systemen wenden voor het controleren van feiten. Als u een claim uit een nieuwsartikel in ChatGPT, Claude of Gemini plakt, krijgt u mogelijk drie verschillende antwoorden. Welke vertrouw je?
AI-bedrijven vertellen je graag dat hun modellen steeds nauwkeuriger worden. Ze publiceren benchmarkscores die een gestage verbetering laten zien. Maar het onderzoek van Lenz testte deze modellen op het soort grillige, dubbelzinnige beweringen waar echte mensen feitelijk over discussiëren – en ontdekte dat de modellen dat ook doen.
De krant wijst hier zorgvuldig op. "Een meerderheid van grensmodellen is geen grondwaarheid. Het oordeel van de meerderheid is soms verkeerd; een individueel afwijkend model heeft soms gelijk. We gebruiken de meerderheid als een structureel referentiepunt voor het meten van onenigheid, niet als vervanging voor correctheid."
Er zit een dieper probleem verborgen in de cijfers. Als modellen het er niet mee eens zijn, moet minstens één van hen het bij het verkeerde eind hebben. De studie noemt het oordeel van een model ‘label-inconsistent onder deze rubriek van vier emmers’. Er is geen tiebreakmechanisme, geen hof van beroep. Recente berichtgeving over de betrouwbaarheid van AI heeft soortgelijke alarmen doen rijzen.
Van de 328 beweringen waar alle vijf de modellen het over eens waren, kreeg nul unaniem de uitspraak 'grotendeels waar'. De nuance-emmer liep helemaal leeg. Als AI-modellen alleen consensus kunnen vinden in de extremen, kunnen ze dan überhaupt wel als factcheckers worden vertrouwd?
Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!
Vijf grensverleggende AI-modellen waren het oneens over 67% van de 1.000 feitelijke factcheck-claims.
Er werd unaniem overeenstemming bereikt over slechts 328 claims.
Met een alfa van Krippendorff van 0,639 vallen de modellen onder de betrouwbaarheidsdrempel van 0,8.
Vraag vijf van 's werelds meest geavanceerde AI-systemen of een bewering waar is, en in twee derde van de gevallen zal er minstens één een ander antwoord geven. Dat is de conclusie van een nieuwe studie die deze maand werd gepubliceerd door onderzoeker Kosta Jordanov van Lenz Research.
Het onderzoek leverde GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro met Search en Sonar Pro dezelfde 1.000 real-world factcheck-claims op die door daadwerkelijke gebruikers waren ingediend. De modellen moesten een van de vier labels kiezen: waar, grotendeels waar, misleidend of onwaar.
Bij 672 van de 1.000 claims brak ten minste één model af van de meerderheid. In 34% van de gevallen was het meningsverschil ernstig: het ene model noemde een bewering waar, terwijl het andere het onwaar noemde.
“Dit zijn geen benchmarkitems met openbare antwoordsleutels – het zijn beweringen dat echte gebruikers ter verificatie zijn ingediend bij een platform voor factchecking”, luidt het onderzoek. “Per claim kan slechts één oordeelsbucket correct zijn, dus elk meningsverschil binnen het panel betekent dat het oordeel van ten minste één model inconsistent is onder deze rubriek van vier buckets.”
Eerdere onderzoeken naar AI-hallucinatie hebben aangetoond dat chatbots feiten verzinnen. Dat is één probleem. Dit is een andere. De modellen verzinnen niet noodzakelijkerwijs dingen, ze kunnen het gewoon niet eens worden over fundamentele feitelijke oordelen over hetzelfde materiaal.
Bij het onderzoek werd gebruik gemaakt van een opzet die het voor de AI-bedrijven moeilijker maakt om iets weg te redeneren. In plaats van claims uit standaardtestsets te halen – het soort dat vaak in trainingsgegevens lekt – gebruikten de onderzoekers claims die door echte mensen waren ingediend bij het factcheckplatform van Lenz. “Het is onwaarschijnlijk dat de meeste van deze beweringen zullen voorkomen in een trainingscorpus waaraan een gouden label is bevestigd – er is geen canonieke antwoordsleutel om patronen mee te matchen, geen benchmark-klassement om aan te verankeren”, merkt de krant op.
De statistische maatstaf voor overeenstemming, de alfa van Krippendorff genoemd, kwam uit op 0,639 op een schaal waarbij 1,0 perfecte overeenstemming betekent en 0 willekeurige kans betekent. De studie zegt dat dit duidt op “niet-triviale maar beperkte overeenstemming.” “De uitspraken van de modellen zijn eerder gestructureerd dan willekeurig, maar niet consistent genoeg om het panel als één verwisselbare rechter te behandelen”, merken onderzoekers op. Onderzoekers beschouwen alles onder de 0,8 over het algemeen als zwak.
Als alle vijf de modellen het eens waren – wat bij slechts 328 van de 1.000 claims gebeurde – waren ze het er bijna nooit over eens dat iets misleidend of grotendeels waar was. Slechts vier claims kregen een unaniem “misleidend” oordeel. Zero ontving unaniem ‘grotendeels waar’.
De onderzoekers gaven voorbeeldclaims waarbij de AI-modellen de meeste verschillen vertoonden, waaronder "De actieve portefeuille van de Wereldbank in Nigeria bedraagt in 2025 ruim 16,4 miljard dollar." ChatGPT 5.4 zei dat het "grotendeels waar" was, terwijl Gemini 3 Pro het "onwaar" noemde en zijn zustermodel Gemini 3 Pro + Search het als "misleidend" beoordeelde.
In een ander voorbeeld waren de modellen voorzien van de claim: “Donald Trump zei dat een aanval op Iran werd uitgesteld op verzoek van de Golfbondgenoten.” GPT-5.4 zei dat het onwaar was, Claude Opus 4.7 noemde het grotendeels waar, Gemini 3 Pro zei onwaar en Gemini 3 Pro + Search beoordeelde het als waar.
"Het panel komt samen tot definitieve uitspraken; het midden van de rubriek is waar deze breekt", ontdekten de onderzoekers. Er was alleen sprake van unanimiteit bij de uitersten: de bewering was óf zeker waar, óf beslist onwaar.
Dit is van belang omdat mensen zich steeds meer tot AI-systemen wenden voor het controleren van feiten. Als u een claim uit een nieuwsartikel in ChatGPT, Claude of Gemini plakt, krijgt u mogelijk drie verschillende antwoorden. Welke vertrouw je?
AI-bedrijven vertellen je graag dat hun modellen steeds nauwkeuriger worden. Ze publiceren benchmarkscores die een gestage verbetering laten zien. Maar het onderzoek van Lenz testte deze modellen op het soort grillige, dubbelzinnige beweringen waar echte mensen feitelijk over discussiëren – en ontdekte dat de modellen dat ook doen.
De krant wijst hier zorgvuldig op. "Een meerderheid van grensmodellen is geen grondwaarheid. Het oordeel van de meerderheid is soms verkeerd; een individueel afwijkend model heeft soms gelijk. We gebruiken de meerderheid als een structureel referentiepunt voor het meten van onenigheid, niet als vervanging voor correctheid."
Er zit een dieper probleem verborgen in de cijfers. Als modellen het er niet mee eens zijn, moet minstens één van hen het bij het verkeerde eind hebben. De studie noemt het oordeel van een model ‘label-inconsistent onder deze rubriek van vier emmers’. Er is geen tiebreakmechanisme, geen hof van beroep. Recente berichtgeving over de betrouwbaarheid van AI heeft soortgelijke alarmen doen rijzen.
Van de 328 beweringen waar alle vijf de modellen het over eens waren, kreeg nul unaniem de uitspraak 'grotendeels waar'. De nuance-emmer liep helemaal leeg. Als AI-modellen alleen consensus kunnen vinden in de extremen, kunnen ze dan überhaupt wel als factcheckers worden vertrouwd?
Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

