AI faalt bij het beoordelen van universitaire essays

door Redactie
gepubliceerd op zondag 31 mei 2026 om 10:29 •
3 min lezen

In het kort

AI slaagt er niet in om schrijfwerk op universitair niveau nauwkeurig te beoordelen.
Modellen geven voorrang aan oppervlakkige taalkundige stijl boven academische inhoud.
Mensen moeten de belangrijkste beoordelaars blijven om de academische kwaliteit te waarborgen.

Recent onderzoek van de Universiteit van Cambridge wijst uit dat de huidige kunstmatige intelligentie onbetrouwbaar is bij het beoordelen van schrijfwerk op universitair niveau. Hoewel AI steeds vaker wordt gebruikt in het hoger onderwijs, suggereert deze studie dat het beoordelen van examens en essays een taak voor mensen moet blijven, aangezien AI zowel uitmuntend als onvoldoende werk vaak verkeerd beoordeelt.

De modellen testen

Voor het onderzoek gebruikten de onderzoekers drie geavanceerde taalmodellen, Gemini 3 Flash, GPT-5.4 en Claude Opus 4.6, om 761 psychologie-essays van studenten van Manchester Metropolitan, Nottingham en Cambridge te beoordelen. Deze papers waren al door docenten beoordeeld. De resultaten waren verontrustend: de cijfers van de AI kwamen maar in 35 tot 63 procent van de gevallen overeen met de menselijke beoordelingen, afhankelijk van de instelling.

De gegevens laten een systematische voorkeur voor middelmatigheid zien. AI had de neiging om uitzonderlijke essays lager te beoordelen, terwijl het te genereus was tegenover slechte essays. Alexandru Marcoci, een medeonderzoeker, merkte op dat de systemen doorgaans over de hele linie gemiddelde scores toekennen. Dit maakt ze het minst betrouwbaar bij kritieke drempels, zoals de grens tussen slagen en zakken of het onderscheid tussen een standaard voldoende en een uitmuntend cijfer.

Stijl boven inhoud

Bovendien liet de AI zich gemakkelijk misleiden door oppervlakkige elementen. Het gaf consequent hogere cijfers aan essays met complexe woordkeuze en lange zinnen, ongeacht of de daadwerkelijke academische inhoud zo’n cijfer verdiende. Dit benadrukt een fundamentele kloof: terwijl menselijke docenten logica en de kracht van argumenten beoordelen, vertrouwt AI op statistische patronen om een waarschijnlijk cijfer te voorspellen op basis van taalkundige stijl.

Hoofdonderzoeker Deborah Talmi waarschuwt voor de verleiding om AI uitsluitend te gebruiken om de werkdruk van docenten te verlichten. Ze benadrukt dat beoordelen niet alleen gaat om het toekennen van een cijfer, maar nauw verbonden is met academische normen, erkenning en vertrouwen. Dit gevoel wordt gedeeld door studenten, van wie velen zich bedrogen voelden toen hun werk door een machine werd beoordeeld in plaats van door een docent.

Een aanvullende rol

Ondanks deze tekortkomingen suggereren de onderzoekers dat AI als aanvullend hulpmiddel kan dienen. Het zou kunnen fungeren als een tweede controle om inconsistenties te signaleren, waardoor docenten worden aangezet om essays opnieuw te bekijken wanneer een menselijke beoordeling sterk afwijkt van een AI-voorspelling. Uiteindelijk concludeert het onderzoek echter dat AI het menselijk oordeel niet kan vervangen, omdat het een echt begrip mist van wat academische kwaliteit inhoudt.

In het kort

De modellen testen

Stijl boven inhoud

Een aanvullende rol

301 Moved Permanently