Default
Door Remote - 16 May 2026
ArXiv, een veelgebruikte open opslagplaats voor preprint-onderzoek, doet meer om het onzorgvuldig gebruik van grote taalmodellen in wetenschappelijke artikelen aan te pakken.
Hoewel artikelen op de site worden geplaatst voordat ze door vakgenoten worden beoordeeld, is arXiv (uitgesproken als ‘archief’) een van de belangrijkste manieren geworden waarop onderzoek circuleert op gebieden als informatica en wiskunde, en is de site zelf een bron van gegevens over trends in wetenschappelijk onderzoek geworden.
ArXiv heeft al stappen ondernomen om een groeiend aantal door AI gegenereerde artikelen van lage kwaliteit te bestrijden, bijvoorbeeld door te eisen dat nieuwe posters de goedkeuring krijgen van een gevestigde auteur. En na ruim twintig jaar door Cornell te zijn gehost, wordt de organisatie een onafhankelijke non-profitorganisatie, waardoor ze meer geld zou moeten kunnen inzamelen om problemen als AI-slop aan te pakken.
In zijn laatste stap postte Thomas Dietterich – voorzitter van de afdeling computerwetenschappen van arXiv – donderdag dat “als een inzending onweerlegbaar bewijs bevat dat de auteurs de resultaten van de LLM-generatie niet hebben gecontroleerd, dit betekent dat we niets in de krant kunnen vertrouwen.”
Dat onweerlegbare bewijs zou zaken kunnen omvatten als ‘gehallucineerde verwijzingen’ en opmerkingen van of naar de LLM, zei Dietterich. Als dergelijk bewijs wordt gevonden, zullen de auteurs van een artikel worden geconfronteerd met “een verbod van één jaar op arXiv, gevolgd door de eis dat daaropvolgende arXiv-inzendingen eerst moeten worden geaccepteerd door een gerenommeerde, door vakgenoten beoordeelde locatie.”
Merk op dat dit geen regelrecht verbod is op het gebruik van LLM’s, maar eerder een nadruk op het feit dat, zoals Dietterich het uitdrukte, auteurs “volledige verantwoordelijkheid” nemen voor de inhoud, “ongeacht hoe de inhoud wordt gegenereerd.” Dus als onderzoekers ‘ongepast taalgebruik, geplagieerde inhoud, bevooroordeelde inhoud, fouten, vergissingen, onjuiste verwijzingen of misleidende inhoud’ rechtstreeks vanuit een LLM kopiëren en plakken, dan zijn ze er nog steeds verantwoordelijk voor.
Dietterich vertelde 404 Media dat dit een “one-strike”-regel zal zijn, maar moderators moeten de kwestie markeren en sectievoorzitters moeten het bewijsmateriaal bevestigen voordat de straf wordt opgelegd. Auteurs kunnen ook in beroep gaan tegen de beslissing.
Uit recent peer-reviewed onderzoek is gebleken dat het aantal verzonnen citaten in het biomedisch onderzoek toeneemt, waarschijnlijk als gevolg van LLM’s. Maar om eerlijk te zijn, wetenschappers zijn niet de enigen die betrapt worden op het gebruik van citaten die door AI zijn verzonnen.
Hoewel artikelen op de site worden geplaatst voordat ze door vakgenoten worden beoordeeld, is arXiv (uitgesproken als ‘archief’) een van de belangrijkste manieren geworden waarop onderzoek circuleert op gebieden als informatica en wiskunde, en is de site zelf een bron van gegevens over trends in wetenschappelijk onderzoek geworden.
ArXiv heeft al stappen ondernomen om een groeiend aantal door AI gegenereerde artikelen van lage kwaliteit te bestrijden, bijvoorbeeld door te eisen dat nieuwe posters de goedkeuring krijgen van een gevestigde auteur. En na ruim twintig jaar door Cornell te zijn gehost, wordt de organisatie een onafhankelijke non-profitorganisatie, waardoor ze meer geld zou moeten kunnen inzamelen om problemen als AI-slop aan te pakken.
In zijn laatste stap postte Thomas Dietterich – voorzitter van de afdeling computerwetenschappen van arXiv – donderdag dat “als een inzending onweerlegbaar bewijs bevat dat de auteurs de resultaten van de LLM-generatie niet hebben gecontroleerd, dit betekent dat we niets in de krant kunnen vertrouwen.”
Dat onweerlegbare bewijs zou zaken kunnen omvatten als ‘gehallucineerde verwijzingen’ en opmerkingen van of naar de LLM, zei Dietterich. Als dergelijk bewijs wordt gevonden, zullen de auteurs van een artikel worden geconfronteerd met “een verbod van één jaar op arXiv, gevolgd door de eis dat daaropvolgende arXiv-inzendingen eerst moeten worden geaccepteerd door een gerenommeerde, door vakgenoten beoordeelde locatie.”
Merk op dat dit geen regelrecht verbod is op het gebruik van LLM’s, maar eerder een nadruk op het feit dat, zoals Dietterich het uitdrukte, auteurs “volledige verantwoordelijkheid” nemen voor de inhoud, “ongeacht hoe de inhoud wordt gegenereerd.” Dus als onderzoekers ‘ongepast taalgebruik, geplagieerde inhoud, bevooroordeelde inhoud, fouten, vergissingen, onjuiste verwijzingen of misleidende inhoud’ rechtstreeks vanuit een LLM kopiëren en plakken, dan zijn ze er nog steeds verantwoordelijk voor.
Dietterich vertelde 404 Media dat dit een “one-strike”-regel zal zijn, maar moderators moeten de kwestie markeren en sectievoorzitters moeten het bewijsmateriaal bevestigen voordat de straf wordt opgelegd. Auteurs kunnen ook in beroep gaan tegen de beslissing.
Uit recent peer-reviewed onderzoek is gebleken dat het aantal verzonnen citaten in het biomedisch onderzoek toeneemt, waarschijnlijk als gevolg van LLM’s. Maar om eerlijk te zijn, wetenschappers zijn niet de enigen die betrapt worden op het gebruik van citaten die door AI zijn verzonnen.

