AI-advocaten zijn al beter in redeneren dan rechtenprofessoren, zeggen rechtenprofessoren

Default Door Remote - 03 Jun 2026

In het kort

Hoogleraren in de rechten gaven in 75% van de gevallen de voorkeur aan door AI gegenereerde antwoorden op het contractrecht boven de antwoorden van collega-hoogleraren.

AI-reacties werden minder vaak als schadelijk gemarkeerd dan door professoren geschreven antwoorden.

Onderzoekers zeggen dat de resultaten aantonen dat grote taalmodellen kunnen aansluiten bij professionele normen.

Hoogleraren in de rechten gaven de voorkeur aan antwoorden gegenereerd door kunstmatige intelligentie boven antwoorden geschreven door collega-hoogleraren, blijkt uit een recent onderzoek onder leiding van Stanford University waarin werd onderzocht hoe grote taalmodellen presteren op het gebied van juridische redeneertaken.

In het onderzoek creëerden 16 professoren van 14 Amerikaanse rechtsscholen – waaronder Stanford, Yale, New York University, de University of Chicago, Georgetown, UCLA en de University of Virginia – 40 contractrechtelijke vragen over juridische doctrine, jurisprudentie, hypothesen en beleidskwesties. Onderzoekers zagen het als een ideale manier om de mogelijkheden van moderne AI te testen.

“Grote taalmodellen (LLM’s) worden steeds vaker gepromoot als docenten in het onderwijs, maar de meeste evaluaties richten zich op domeinen met één enkele grondwaarheid”, schreven de onderzoekers. "Veel disciplines zijn echter afhankelijk van oordeel: redeneren, dubbelzinnigheid afwegen en tot verdedigbare conclusies komen. Het recht biedt een scherpe test."

In 2.918 geblindeerde vergelijkingen selecteerden professoren het antwoord dat ze liever aan een student zouden geven. Google's Gemini 2.5 Pro won 75,92% van de wedstrijden tegen menselijke instructeurs, terwijl NotebookLM van de technologiegigant 74,75% van de tijd won, waardoor door AI gegenereerde resultaten in ongeveer driekwart van de reacties de voorkeur kregen boven mensen.

Om te bepalen of de resultaten een bredere professionele consensus weerspiegelden, analyseerden de onderzoekers volgens de onderzoekers hoe vaak professoren het eens waren bij het evalueren van dezelfde antwoordparen.

“De waargenomen overeenstemming overtrof het verwachte niveau als de oordelen volledig idiosyncratisch waren, wat aangeeft dat het succes van de LLM’s de afstemming op gemeenschappelijke disciplinaire criteria weerspiegelt”, schreven ze.

Uit het onderzoek bleek dat AI-modellen ook beter presteerden dan menselijke instructeurs in meerdere categorieën, waaronder herinneringsvragen met betrekking tot casus, code of doctrine, hypothesen en beleidsdiscussies.

“Om te onderzoeken of enig LLM-voordeel zou kunnen worden veroorzaakt door schrijfstijl op oppervlakkig niveau in plaats van door inhoudelijke inhoud, hebben we bovendien een reeks lexico-syntactische kenmerken ontwikkeld – antwoordlengte, structurele organisatie, redeneringsnuance, juridische ankers, vertrouwenstoon, duidelijkheid en pedagogische ondersteuning – en getest hoeveel van het voorkeurspatroon ze konden verklaren”, aldus de studie.

Door AI gegenereerde antwoorden werden ook minder vaak als schadelijk gemarkeerd dan die van professoren, waarbij Gemini een schadelijkheidspercentage van 3,41% registreerde en NotebookLM 3,64%, vergeleken met 12,06% voor menselijke instructeurs. In een afzonderlijke analyse van aanvullende modellen kwam Claude Opus 4.7 van Anthropic op de eerste plaats, gevolgd door ChatGPT 5.4 en Gemini 2.5 Pro van OpenAI, terwijl elk beoordeeld AI-model gemiddeld beter presteerde dan menselijke instructeurs.

De onderzoekers waarschuwden dat in het onderzoek niet werd gemeten of de antwoorden overeenkwamen met de individuele onderwijsvoorkeuren van elke professor, waardoor de mogelijkheid openbleef dat door AI gegenereerde antwoorden als algemeen aanvaardbaar werden beschouwd in plaats van afgestemd op de aanpak van een bepaalde instructeur.

“Hoewel LLM-reacties over het algemeen de voorkeur hebben boven die van menselijke instructeurs, staat onze evaluatiesetting ons niet toe om direct te meten in welke mate aan de voorkeuren van instructeurs wordt voldaan”, aldus de studie. “Het is op zijn minst theoretisch mogelijk dat LLM’s, hoewel ze over het algemeen sterkere antwoorden opleveren, nog steeds antwoorden genereren die alleen maar als ‘goed genoeg’ worden beschouwd.

Het onderzoek komt op een moment dat rechtbanken, advocatenkantoren en rechtsscholen steeds meer worstelen met de manier waarop kunstmatige intelligentie in de advocatuur moet worden gebruikt.

In maart begon het Hooggerechtshof van Los Angeles met het testen van AI-tools om rechters te helpen de groeiende hoeveelheid zaken te beheren, terwijl rechtsscholen AI-trainingsprogramma's toevoegen.

“De potentiële voordelen van deze nieuwe technologieën als krachtvermenigvuldiger in de rechtspraktijk kunnen gewoon niet worden genegeerd”, vertelde John P. Anderson, decaan van de Mississippi College School of Law, eerder aan Decrypt. "Of onze studenten nu van plan zijn procesadvocaat of transactieadvocaat te worden, hun toekomstige werkgevers zullen bekendheid met deze AI-tools verwachten. We willen dat de bedrijven die onze studenten inhuren erop kunnen vertrouwen dat elke MC Law-afgestudeerde competent is in AI-technologieën.

Tegelijkertijd blijven advocatenkantoren echter geconfronteerd worden met zaken die worden ondermijnd door hallucinaties en andere door AI gegenereerde fouten. In april gaf advocatenkantoor Sullivan & Cromwell voor een Amerikaanse faillissementsrechtbank toe dat een recente indiening in een spraakmakende zaak valse citaten bevatte die door AI waren gegenereerd.

Dagelijkse debriefing NieuwsbriefBegin elke dag met de belangrijkste nieuwsverhalen van dit moment, plus originele artikelen, een podcast, video's en meer. Uw e-mail Download het! Download het!

← De Ethereum-weddenschap van Bitmine nadert een verlies van $9 miljard als ether onder de $1.800 daalt Je kunt het hypergeweld in Marvel’s Wolverine meer PG-13 maken, als je dat wilt →