Hoe verweer je je tegen de uitspraken van de ChatGPT detector?

Een lezer vroeg me:

Ik las over de ontwikkeling van een “ChatGPT detector” bij wetenschappelijke papers. Weliswaar alleen voor scheikunde, maar ik vroeg me toch al af: als mijn paper op de universiteit door zo’n detector als plagiaat wordt aangemerkt, wat kan ik daar dan tegen doen? Dit is een behoorlijk black box verhaal.

De aangehaalde publicatie betreft een tool ontwikkeld door twee scheikundigen. Op basis van een relatief kleine dataset met abstracts kan de tool zeer accuraat een abstract als handgeschreven versus “komt uit ChatGPT” aanmerken. Het idee erachter is dat je zo’n detector domeinspecifiek moet bouwen, omdat je dan domeinspecifieke terminologie, taalgebruik, stijl en dergelijke mee kunt nemen in de afweging.

Voor plagiaatcontrole zou je dus per faculteit een aparte dataset moeten maken, dat lijkt me een te overzien probleem. Dus laten we even aannemen dat zo’n ding bestaat en ingezet wordt in de al bestaande procedure van plagiaatcontrole op papers en scripties. Wat dan?

Plagiaatscanners werken op dit moment vrij rechttoe-rechtaan: ze matchen stukken tekst met externe bronnen en produceren een rapport met highlights. Het plaatje rechtsboven (van scanner Ephorus) laat daarvan een voorbeeld zien. Een examinator gebruikt dat als input om zelf de vergelijking te controleren en daar conclusies uit te trekken. Dat gaat dan bijvoorbeeld zo:

Tijdens de controle van het werk is door de plagiaatscanner een overlap geconstateerd tussen het werk van [appellant] en een medestudent. De overlap omvatte bijna 100 procent van het werk. … De examencommissie heeft ook geconcludeerd dat [appellant] zich schuldig heeft gemaakt aan plagiaat vanwege het letterlijk overnemen van informatie van websites. Omdat [appellant] geen gebruik heeft gemaakt van aanhalingstekens of een bepaalde vormgeving, zijn de citaten niet als zodanig herkenbaar. Verder heeft [appellant] bijna letterlijk informatie overgenomen zonder bronvermelding.

De “ChatGPT detector” werkt iets anders. Uit de Nature-publicatie:

Using machine learning, the detector examines 20 features of writing style, including variation in sentence lengths, and the frequency of certain words and punctuation marks, to determine whether an academic scientist or ChatGPT wrote a piece of text. The findings show that “you could use a small set of features to get a high level of accuracy”, Desaire says.

Hier komt dus de uitspraak uit “op basis van statistische analyse lijkt het er zeer sterk op dat deze tekst uit de tool ChatGPT komt”. Dat is wel even een ander niveau dan constateren dat stukken tekst uit het paper gelijk zijn aan stukken tekst uit een specifieke, na te lezen bron.

Juridisch gezien ligt de bewijslast bij de docent dan wel examencommissie dat sprake is van fraude (waar plagiaat of het inschakelen van hulplijnen onder valt). In dit Tilburgse voorbeeld uit 2021 werd door het College van Beroep een plagiaatbeschuldiging afgewezen omdat het aangedragen bewijs niet meer was dan “vraag 2d is opmerkelijk gedetailleerd beantwoord, in tegenstelling tot de rest”. Maar in de meeste gevallen is de plagiaat wel letterlijk en duidelijk.

Ik kon één geval vinden (uit Leiden) waarin de fraude zou zijn dat de student een derde had ingeschakeld om mee te schrijven. Dat lijkt nog het meest op het inzetten van ChatGPT: als docent zie je andere stijlvormen, een hoger niveau van redeneren, een heel andere wending dan in de eerder besproken onderzoeksopzet en concepten, zulke dingen.

Het kán natuurlijk dat je tussentijds ineens diepere inzichten verwerft (en discussie met anderen is legitiem om die te verwerven), maar als je dat niet kunt toelichten of laten zien als daarom gevraagd wordt dan kan men alsnog uitkomen bij fraude:

Het College overweegt dat niet het feit dat appellante een andere, ingewikkelde methode in haar scriptie heeft gebruikt kan worden aangemerkt als fraude, maar dat de verstrekte toelichtingen van appellante over de door haar gemaakte keuzes in haar scriptie van dien aard zijn dat verweerder terecht en op goede gronden heeft geconstateerd dat het op juiste wijze vormen van een oordeel over de kennis, het inzicht en de vaardigheden van appellante geheel of gedeeltelijk onmogelijk is geworden en dus als fraude moet worden aangemerkt.

Ik vond één uitspraak uit Groningen over fraude (mede) vanwege de inzet van AI. De bewijslast werd volgens mij goed gedragen:

Appellante heeft in haar essay tenminste tien bronnen gebruikt die in het geheel niet bestaan. Daarnaast zijn er ook andere fouten gemaakt in de bronvermelding. Zo noemt appellante artikelen die niet in de door haar genoemde vakbladen zijn gepubliceerd en zijn er ook nog andersoortige fouten gemaakt.

Met dergelijke aanwijzingen onderbouw je je vermoeden van fraude prima, zeker als de studente daar weinig meer tegenover kan stellen dan dat het expliciete verbod op gebruik van AI pas van na haar afrondingsdatum was. Gebruik van tools om je werk te doen maakt dat het minder jouw werk is.

Van de zomer verscheen dit artikel waarin men een lichte toename signaleerde van fraudegevallen door GPT. Schokkend vond ik wel de daar gedane suggestie over detectie door ChatGPT zelf:

Bij vermoeden van plagiaat kan je aan het computerprogramma vragen of hij het geschreven heeft. ChatGPT geeft daar dan ‘eerlijk’ antwoord op. Die methode is niet altijd betrouwbaar, zegt Ferrantelli, dus uiteindelijk geeft het oordeel van de docent de doorslag.

Een methode die “niet altijd betrouwbaar is” lijkt me per definitie een methode die je niet moet gebruiken. Zeker als de makers van ChatGPT zelf hun eigen tool hiervoor offline halen omdat hij niet goed werkt.

(Meelezende afstudeerders-in-spe, wie hier een onderzoek van wil maken kan zich melden!)

Arnoud

7 reacties

Dit is een wapenwedloop die niet te winnen is.

Zodra (het algoritme van) de detector publiek is, is het vrij eenvoudig om een adversial network op te zetten waarbij je ChatGPT leert om zijn antwoord te veranderen zodat het een minimale score op de detector haalt.

Overigens gebruik ik ChatGPT vaak om mijn eigen correcte, academische, inhoudelijk prima, doch in brak Engels geschreven, teksten om te zetten naar mijn eigen correcte, academische, inhoudelijk prima en in fijn en leesbaar Engels geschreven teksten om te zetten. En daar is volgens mij weinig mis mee.

Beantwoorden

Nuttige reactie, +1! (2)

MathFox schreef:

14 november 2023 om 21:21

Ik verwacht dat Grote Taal Modellen (GTM’n) over niet al te lange tijd op onderwijsinstellingen gebruikt gaan worden als hulp bij het taalonderwijs, om de leerlingen te leren verbeteringen te maken in hun taalgebruik. En natuurlijk als standaard tool om spelling en schrijfstijl van rapporten te verbeteren. De overheid zou er ook nuttig gebruik van kunnen maken om ambtelijk taalgebruik in brieven te vertalen naar normaal Nederlands, maar ik vrees dat die toepassing nog wel even op zich zou laten wachten.

Ik zie weinig problemen met het gebruik van een GTM als schrijfhulp, mits de auteur strak richting geeft en controleert of het model wel inhoudelijk schrijft wat de auteur wenst. Dat een door een GTM herschreven werkstuk door de bestaande plagiaatdetectie niet gevonden wordt betekent dat er gekeken moet worden haar slimmere vormen van detectie, mag ik een korte mondelinge overhoring over een detail van het materiaal uit het werkstuk voorstellen?

Beantwoorden

Nuttige reactie, +1!
1. Ruud Harmsen schreef:
  
  16 november 2023 om 10:24
  
  Grappig, ik testte net deze Engelsopkalefatermogelijkheid van ChatGPT met de derde alinea van mijn in het Engels geschreven https://rudhar.com/economi/monydebt/en/019claim.htm, en ik denk dat zijn Engels mooier en authentieker is, maar ook wat ingewikkelder. Het mijne zal voor laaggeletterden ook niet makkelijk zijn, maar dat van ChatGPT nog moeilijker, denk ik.
  
  Maar ik had niet specifiek om vereenvoudiging gevraagd, slechts om verbetering.
  
  Tot mijn verbazing was er geen of weinig verkeerdbegrepenheid. Wel één dingetje: ik bedoelde “Although technically equivalent” als verwijzend naar iets wat nog ging volgen, maar “While these are technically equivalent,” lijkt mij achteruit te verwijzen, wat niet de bedoeling was. Of is dat alleen zo als er “those” had gestaan?
  
  Beantwoorden
  
  Nuttige reactie, +1!
  1. Ruud Harmsen schreef:
    
    16 november 2023 om 10:28
    
    Ook gevraagd het te versimpelen, “so that it is easier to understand for people with limited reading and comprehension skills”.
    
    Doet-ie ook heel aardig, hoewel “ticket” wellicht niet de allergelukkigste woordkeuze is. https://www.youtube.com/watch?v=SyNt5zm3U_M
    
    Beantwoorden
    
    Nuttige reactie, +1!
    1. Ruud Harmsen schreef:
      
      16 november 2023 om 10:33
      
      So yes, I go Chat GPT my whol web site let rewrite, between now and within short!
      
      Beantwoorden
      
      Nuttige reactie, +1!

Het gebruik van niet bestaande bronnen lijkt mij genoeg reden om een student een onvoldoende te geven; dan hoeven we niet te weten of de tekst zelfgeschreven is of door een ai.

Beantwoorden

Nuttige reactie, +1! (1)

Paul schreef:

15 november 2023 om 21:06

Dit is zowieso fraude, onafhankelijk waar dat dan vandaan komt. De claim is namelijk dat het genoemde werk de bron is van de ideeën waar het bij staat. Bij niet bestaand artikelen is dat dus duidelijk een leugen ter misleiding van de nakijken. Overigens kun je dit redelijk goed vinden met bestaande Tools aangezien die dan juist geen overeenkomsten vinden in de bronnen (normaal vind je daar veel overeenkomsten)

Beantwoorden

Nuttige reactie, +1!

7 reacties

Geef een reactie Reactie annuleren