Antiplagiaattool Ephorus bruikbaar als bewijs bij examenopstel

detectie-ephorusEen één voor plagiaat toekennen nadat met Ephorus een match van 93% was vastgesteld, mag. Dat bepaalde de Raad van State onlangs in een rechtszaak van een scholier die bij een examenopdracht met deze tool betrapt was. Natuurlijk ging het niet alléén om Ephorus, de rector had nader onderzoek uitgevoerd. Ik ben heel benieuwd of meelezende forensisch experts een geloofwaardig weerwoord kunnen produceren op de bevindingen daarvan.

De scholier had een opstel ingeleverd (“Vettaks onzin!”) dat door het antiplagiaatprogramma Ephorus was gescand met een score van 93% overeenstemming met een opstel dat op 23 februari 2012 door een andere eindexamenkandidaat was ingeleverd. Dat is een stevige aanwijzing voor plagiaat, maar je kunt niet een besluit (zoals uitsluiting of een cijfer) opleggen uitsluitend op basis van wat een computerprogramma zegt.

Verder onderzoek dus. Stap 1: wat staat er in de bestandseigenschappen van meneers opstel? De naam van de eerdere mevrouw. Eh, oeps. En inhoudelijk was het ook vrij snel klaar:

Vergelijking van de twee opstellen wijst uit dat het door [de scholier] ingeleverde opstel, afgezien van de titel, een beperkt aantal woorden en de laatste paar zinnen, identiek is aan het opstel van een eindexamenkandidate, die haar opstel twee weken eerder heeft ingeleverd. Zelfs een taalfout komt overeen.

De scholier had nog aangedragen dat hij echt de auteur was, omdat hij het al in februari 2012 op internet had gezet, dus een week voor het inleveren van die collega-scholiere. Daar was alleen geen bewijs van (en, vraag ik me dan af, waarom zóu je). Bovendien is het dan bepaald onlogisch dat de naam van een ander in de bestandseigenschappen terechtkomen, lijkt mij.

Goed, in theorie zou iemand anders na het inleveren die eigenschap hebben kunnen wijzigen, maar een dergelijke theorie klinkt nogal onwaarschijnlijk en vereist dus stevig bewijs. Het recht werkt niet met mathematische zekerheden maar met waarschijnlijkheden – en zaken die onwaarschijnlijk zijn op het niveau “kóm nou” mag je gewoon negeren.

Meneer mag nog wel door met zijn examens, de 1 telt voor 12% mee en het is dus mogelijk dat hij alsnog slaagt.

Arnoud

20 reacties

  1. Het kan natuurlijk zijn dat hij samen met die andere student het opstel had geschreven, waarbij haar computer werd gebruikt en dus haar naam in het bestand kwam. Vervolgens heeft ieder nog wat eigen zaken aangepast en ieder apart ingeleverd zonder de ander als mede-auteur te noemen. Dit zou een verklaring kunnen zijn. Bovendien, hij… Zij… Het zou een koppeltje kunnen zijn op school. Mogelijk hebben ze een (stiekeme) relatie. En neemt hij haar in bescherming want als hij vertelt dat ze het tesamen hebben geschreven dan krijgt zij mogelijk ook een 1. Dat is een logische verklaring die ik hierbij kan bedenken, alleen heeft die knul hier niets over gezegd voor zover ik weet…

    1. Toen ik het bericht las dacht ik al ‘Wim heeft hier vast een passende verklaring voor’, en voilà 🙂

      Is natuurlijk ernstig ver gezocht, bovendien is samen iets schrijven en dat niet vermelden vast niet in orde onder dit examenregelement.

      Wat ik een interessantere vraag vind is ‘ Wat kun je als luie student doen tegen dit soort software?’ Als je dus plagiaat wil plegen zonder gedetecteerd te worden. Is het uberhaupt nog mogelijk?

      1. Laat een Nederlandse scriptie door een online vertaler omzetten naar een vreemde taal, en dat resultaat vervolgens door een 2de vertaler omzetten naar Nederlands, of begin met een stuk in een vreemde taal. Vervolgens zal je de grammatica en dergelijke weer in orde moeten maken. Blijft een hoop werk.

      2. Vergezocht of niet maakt weinig uit, als je maar twijfel kunt veroorzaken. Als je erkend kunt worden als mede-auteur is er geen sprake van plagiaat. Alleen deze jongeman heeft dat excuus niet gebruikt, dus pech. Zou het uitgemaakt hebben of het meisje vervolgens zou ontkennen? Niet echt, want hoe kwam hij anders aan haar document? Maar haar ontkenning wekt ook weer twijfel en dan is het niet te bepalen welk verhaal het juiste is. En ja, ze kunnen het verder onderzoeken, maar dat onderzoek kost tijd en geld. Op een gegeven moment moet je bij twijfel aan zijn schuld erkennen dat hij mede-auteur is… Maar zoals gezegd, het lijkt erop dat die jongen dit verweer niet heeft gebruikt…

        1. Het gaat hier niet om plagiaat als in de auteurswet, maar om academische fraude. Het opstel is, naar men aanneemt, een individuele opgave. Het gezamelijk schrijven zou dus ook een overtreding opleveren. Het samen schrijven neemt namelijk de hoofdeigenschap van het opstel weg: een representatie van de capaciteiten van de betreffende leerling/student.

      3. Je zou een demo kunnen nemen op Ephorus, dan checken wat de plagiaatscore is, en je artikel “spinnen” totdat deze plagiaatscore laag genoeg is.

        Article spinning is a search engine optimization technique by which blog or website owners post a unique version of relevant content on their sites. It works by rewriting existing articles, or parts of articles, and replacing elements to provide a slightly different perspective on the topic. Many article marketers believe that article spinning helps avoid the feared penalties in the Search Engine Results Pages (SERP) for using duplicate content. If the original articles are plagiarized from other websites or if the original article was used without the copyright owner’s permission, such copyright infringements may result in the writer facing a legal challenge, while writers producing multiple versions of their own original writing need not worry about such things.

        Je zou je artikel kunnen inleveren in een formaat waar Ephorus problemen mee heeft. Bijvoorbeeld een PDF van een scan van je artikel. Dan moet Ephorus letterherkenning doen, of de leraar moet het artikel overtypen in een formaat waar wel mee gewerkt kan worden. Op de uni, een jaartje of 10 geleden, kwam het best voor dat artikelen handgeschreven werden ingeleverd.

        Natuurlijk verwijder je spel-en stijlfouten en meda-data zoals auteur.

        Nog een mogelijkheid die ik zie is bronplagiaat. Pak van een wetenschappelijk artikel of Wikipedia pagina alle bronnen en referenties, en schrijf dan je artikel wel zelf, maar gebruik de bronnen en referenties in dezelfde volgorde. De boodschap en bronnen van het artikel zal sterk overeenkomen met het geplagieerde artikel, maar de inhoud niet.

        Terzijde: Wat ik wel apart vind aan Ephorus is het volgende van de website:

        Ephorus accurately compares: – billions of internet sources; – work previously submitted at your school or university; – work submitted at the 4,000 other schools and universities that use Ephorus; – other relevant documents: journals, reference material, etc. only with explicit permission from the educational establishments

        De leerinstelling bepaald dus klaarblijkelijk of jouw artikelen worden opgenomen in een systeem dat andere leerinstellingen kunnen raadplegen, als deze ook met Ephorus werken. Mag je in de context van het inleveren van een artikel, niet geschikt voor publicatie of inzage door derden, verwachten dat dat artikel ingelezen kan worden door derden buiten jouw leerinstelling?

        En interessant in deze: Als de rector geen plagiaat intentie kan herkennen (zoals de originele naam van de auteur of een overeenkomende spelfout), maar de software geeft wel aan: 94% kans van plagiaat. Gaat alles dan hangen op de werking van de software? Als deze commerciele software is, waarvan de werking niet beschreven is, is dan een plagiaat score alleen voldoende? Of zal deze software altijd als tipgever dienen?

        1. De leerinstelling bepaald dus klaarblijkelijk of jouw artikelen worden opgenomen in een systeem dat andere leerinstellingen kunnen raadplegen, als deze ook met Ephorus werken. Mag je in de context van het inleveren van een artikel, niet geschikt voor publicatie of inzage door derden, verwachten dat dat artikel ingelezen kan worden door derden buiten jouw leerinstelling?

          Universitaire scripties ewdmz. gelden als wetenschappelijk werk en zijn dus in beginsel openbaar. Controleerbaarheid van de beoordeling brengt daarnaast ook zekere openbaarheidseisen met zich mee.

          Overigens is het niet zo dat Ephorus als bibliotheek fungeert: ingevoerde stukken zullen alleen als citaat worden getoont indien en voorzover overeenkomst met een nieuw te controleren stuk is gevonden.

          De suggestie van plaatjes-pdf is een aardige, maar Ephorus geeft dan gewoon een foutmelding. Iets verfijnder: een pdf met leesbare (eigen) tekst zowel als (geplagieerde) tekst in plaatjes. Sommige instellingen eisen echter full-text Ephoruscontrole en niet voldoen aan dergelijke examenreglementeisen op zich zou dan al tot problemen kunnen leiden.

          En interessant in deze: Als de rector geen plagiaat intentie kan herkennen (zoals de originele naam van de auteur of een overeenkomende spelfout), maar de software geeft wel aan: 94% kans van plagiaat. Gaat alles dan hangen op de werking van de software? Als deze commerciele software is, waarvan de werking niet beschreven is, is dan een plagiaat score alleen voldoende? Of zal deze software altijd als tipgever dienen?

          Dat laastste uiteraard. De software geeft gelukkig precies aan waarmee overeenkomsten zijn aangetroffen: titel, gelijkende inhoud, vindplaats, datum etc. De rector (doorgaans natuurlijk gemandateerd een docent of daarna een examencommissie) kan de aard van de overeenkomsten vervolgens beoordelen. En soms blijkt dan dat een 94% score slechts betekent dat een groepsopdracht door verschillende docenten wordt nagekeken, of dat de student een concept-versie ook al door Ephorus had gehaald.

      4. Het is al voorgekomen dat leerlingen met taalknobbels (of die tweetalig zijn) Franse of Duitse teksten hebben vertaald, om zo de computerprogramma’s om de tuin te leiden.

        Het zou volgens bepaalde artikelen zelfs een trend zijn in de VS om een ‘professionele’ scriptie schrijver via internet te benaderen en deze de tekst te laten schrijven. Dan kan je zelfs tekstfragmenten inleveren zodat de ghost-writer zijn best doet jouw taalgebruik te imiteren (alhoewel ik m trouwens kan voorstellen dat op een MBO/HBO/WO de klassen meestal te groot en te eenmalig zijn voor een leraar om überhaupt de stijl van een leerling te zien.) Interviews beweren zelfs dat ze het hele mailverkeer tussen scriptie-begeleider en student over kunnen nemen voor het geval dat.

    2. “Ik heb haar laptop gebruikt” zou een mooie, neutrale verklaring zijn voor waarom haar naam in jouw Word-bestand staat. En niet ongeloofwaardig, als je vlak voor een deadline een kapotte eigen laptop hebt dan moet je iets en een klasgenoot vragen ligt dan voor de hand.

      Dat zij dan vervolgens dezelfde tekst inlevert, maakt het dan weer een stuk minder logisch allemaal. Gevalletje bestand verwisselen zou kunnen (de zijne heet examenopdracht.doc en de hare examenopstel.doc, allebei op Bureaublad) maar dan zou je een 100% match verwachten en niet 93%.

      1. Mee eens. Het verbaast me dat de scholier dat niet heeft beargumenteerd, of dat zie ik niet terug in het vonnis. (Behelst hier het vonnis zelf nu dan een “beoordeling van het kennen en kunnen” van de scholier?)

  2. Ik steun de rector hier. Hij heeft, naar aanleiding van een “tip” uit een computerprogramma, een onderzoek ingesteld en is daarbij tot de conclusie gekomen dat het door de student ingeleverde werk niet origineel was. Met de feiten zoals die in het vonnis beschreven zijn zou ik niet tot een andere conclusie hebben durven komen. De student heeft fraude gepleegd en de rector heeft daarop een straf toegekend. Drie beroepsinstanties bevestigen de beslissing van de rector, dus het zal juridisch ook wel goed zitten. (Wim, als de opdracht is om iets zelfstandig te schrijven, dan is samenwerken een overtreding van het examenreglement.)

    Ik zeg niet dat de studente met 93% match niets te verwijten valt; het is mogelijk dat ook zij aanzienlijke delen van haar opstel van het Internet gehaald heeft. Maar zij had haar naam in de auteur-metadata gekregen, in haar opstel wijst weinig op fraude.

    1. Ik vind de straf ook licht (als volledige uitsluiting van het examen ook tot de mogelijkheden behoort.) Ik weet te weinig van de specifieke omstandigheden in deze zaak om met enige redelijkheid te durven beweren dat de straf te licht is. De omstandigheden suggereren dat de studenten zelf mochten bepalen waar en wanneer ze hun opstellen maakten; het is niet bekend van welke hulpbronnen ze gebruik mochten maken. Ik kan niet beoordelen hoe ver de student de norm overschreden heeft omdat ik de norm niet ken. Een andere overweging is in hoeverre deze overtreding twijfels oproept over de betrouwbaarheid van zijn antwoorden op andere examenonderdelen. Is het waarschijnlijk dat hij voor meerdere vakken vergelijkbare fraude heeft gepleegd of waren de omstandigheden voor het onderdeel Nederlands zo specifiek dat dezelfde fraude in zijn andere vakken onmogelijk is?

  3. Wanneer zou een percentage van toevalligheid naar waarschijnlijkheid gaan? Zouden we dan moeten spreken van evidente percentages als 80-100? of zou 51 bij wijs van spreke genoeg kunnen wezen?

    Ik moest begin van dit jaar voor een vak peer reviews inleveren, met ‘anonieme’ papers. Het vak in kwestie gaf echter wel gewoon de Word documenten zelf, waardoor met de eigenschappen de auteur makkelijk te achterhalen was. Veel mensen lijken dit dus te vergeten.

    1. Marc, Standaard percentages in de statistiek zijn 90, 95 of 99% kans dat hypothese A “het werk is (deels) gekopieerd” waar is tegenover B “het werk is een eigen schepping”. Hoe dat zich precies vertaalt hangt van de de context van de vergelijking af: zitten er meer werken in de database, dan is de kans op een willekeurige match van een korte zin groter. Wanneer je in twee Nederlandse opstellen een zin van 12 woorden letterlijk terugvindt, dan is het zeer onwaarschijnlijk dat de overeenkomst toevallig is (hoe onwaarschijnlijk hangt ook van de gebruikte woorden af). Een match van >80% in twee opstellen van duizend woorden is te onwaarschijnlijk om toevallig te kunnen zijn.

      Als je Bayesiaanse statistiek loslaat op het probleem is het niet zo moeilijk om waarschijnlijkheidswaarden te koppelen aan de overeenkomsten tussen opstellen. Vergeet dan niet mee te nemen dat wanneer de docent een bepaald onderwerp voorschrijft, dat betekent dat de opstellen meer op elkaar lijken dan wanneer je opstellen over verschillende onderwerpen met elkaar vergelijkt.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.