‘Nederlandse bronnen voor trainen van chatbots staan bol van privégegevens’

De Nederlandse sites die het vaakst gebruikt worden voor het trainen van chatbots, staan bol van auteursrechtschendingen, privégegevens en nepnieuws. Dat las ik bij Tweakers, dat zich baseert op onderzoek van De Groene Amsterdammer. En daaruit komt weer naar voren dat de illegale site docplayer.nl met een aandeel van 3,6 procent de de belangrijkste Nederlandse bron voor chatbots is. Het stuk privégegevens komt ook van scraping van genealogiesites of bijvoorbeeld Marktplaats met al haar contactgegevens (als je die in je advertentie zette). Wat de vraag oproept, mag je hiermee werken?

Chatbots en meer algemeen grote taalmodellen hebben data nodig, hoe meer hoe beter. Daarom wordt consequent heel internet gedownload. Nog even los van de auteursrechtelijke situatie (ik miste artikel 15o Auteurswet overigens in het artikel), je krijgt dan een best scheef beeld: “The Truth Is Paywalled But The Lies Are Free”, zoals ik het ooit hoorde omschrijven. Wat ze bij De Groene duiden als:

In de top-tweehonderd van meest geciteerde websites vonden we het neonazistische Stormfront (plek 165), de complotsite Vrijspreker (169) en E.J. Bron (190). E.J. Bron is er ‘voor vrijheid van meningsuiting, tegen de islamisering van Europa, tegen de EUSSR, tegen de mainstream, voor het behoud van westerse waarden en tradities en pro-Israël’.
Vervolgens citeren ze een onderzoekende student die GPT de Stemwijzer liet invullen en die dan weer bij een politieke voorkeur voor SP, Denk en D66 aantreft, wat ik niet vind volgen uit bovengenoemde bronnen, maar dat terzijde.

Je kunt het ook positief bekijken: er zitten ook bronnen zoals het Juridisch Loket, de overheid en Wikipedia in, dus je krijgt niet alléén maar onzin en scheve rommel in je dataset. Ik zie het probleem dan ook meer als eentje van gebrek aan diepgang. Neem het juridische domein, wie rechtsgeleerdheid wil studeren zonder boeken en zonder abonnement op Sdu of Kluwer die gaat niet ver komen. Maar al die content in zo’n AI krijgen, dat botst natuurlijk weer met het verdienmodel van uitgevers (wat ik niet als kritiek bedoel, overigens).

Ik zit er nogal mee hoe je dit vlot kunt trekken. Als individueel bedrijf kun je natuurlijk datasets aankopen en een eigen, betere basis bouwen, maar dat voelt niet echt een zinvolle tijdsinvestering. Maar om het nu een overheidstaak te noemen dat er een kwalitatief goede en representatieve dataset komt voor de Nederlandse taal gaat wellicht ook wat ver?

Arnoud

15 reacties

  1. Hoe zit het met het auteursrecht? Als ik een stapel paywalled wetenschappelijke artikelen (die meestal met publieke middelen zijn geschreven, maar dat is een andere discussie) als trainingsdata in mijn AI invoer, is die data daarna niet meer herkenbaar terug te vinden in mijn AI-systeem. Het systeem gaat, hopelijk, wel zinnige dingen roepen op basis van die data. Maar is dat anders dan een AIO die een artikel schrijft na heel veel relevante artikelen te hebben gelezen?

    Persoonsgegevens lijken me makkelijker. Als ze niet echt relevant zijn, kun je die gewoon uitfilteren. Of als ze taalkundig nodig zijn, verander je ze. Dit kan vooraf gedaan worden met een eenvoudig systeem. Waar “Arnoud” staat, zet je “Karel” neer, waar 10 cijfers achter elkaar staan beginnend met 06, zet je 10 andere cijfers beginnend met 06 neer. Voor het leren van de structuur maakt het niet uit en persoonsgegevens komen nooit meer terug uit het systeem, hoe hard je er ook om vraagt, want ze zijn nooit in het systeem opgenomen.

  2. Overigens denk ik dat OpenAI voor ChatGPT heel veel, en vooral, wetenschappelijke artikelen heeft gebruikt. Bijna altijd wordt een tekst afgesloten met ‘meer onderzoek is nodig’. De toon van teksten is altijd heel erg enerzijds, anderzijds. Als ChatGPT op Facebook data was getraind zou er wel staan ‘ik heb mijn eigen onderzoek gedaan’ en ‘dit is waar, als je me niet gelooft ben je een schaap’.

    1. ChatGPT is getrained op vrijwel alle publiek beschikbare wetenschappelijke artikelen. Maar dit is niet zozeer de reden dat het antwoorden geeft in de trant van “meer onderzoek is nodig”, en “enerzijds, anderzijds”. ChatGPT is in een later stadium afgetrained met menselijke raters/feedback (zogenaamde RLHF). Antwoorden met “meer onderzoek is nodig” en “enerzijds, anderzijds” zijn hoge kwaliteit antwoorden en krijgen dus de beste ratings.

      In de eerste stap wordt het model beloond als het correct het volgende woord voorspeld. In de tweede stap wordt het model beloond als het antwoorden geeft die hoog gewaardeerd worden door menselijke raters. In een derde stap wordt een ander model beloond als het ratings geeft die overkomen met menselijke raters (zodat dit raten automatisch kan, en geen dure menselijke ratings meer nodig heeft).

      Daarom misschien ook waarom Arnoud zegt “wat ik niet vind volgen uit bovengenoemde bronnen”. Het maakt dus niet zoveel uit wat de distributie is van onzin- en haatspraak in de train dataset. Zelfs al is dit de ruime meerderheid, en hebben haat of onzin woorden dus de hoogste kans om andere woorden op te volgen, zal de menselijke raters het model afleren om slechte antwoorden te geven. Het is dus niet zo dat als 50% van de train set haatspraak bevat, dat 50% van de antwoorden ook hatelijk is, dat is slechts zo bij on-afgetrainde modellen zoals GPT-2.

      Menselijke raters worden expliciet opgedragen om objectiviteit, wetenschap, gelijkwaardigheid, en menswaardigheid hoger te raten.

  3. Het werd in een eerdere reactie met een ander voorbeeld ook gevraagd, maar stel dat iemand al jouw Ius Mentis blogs zou invoeren als trainingsdata (en misschien zitten de blogs ook al in de trainingsdata van dit soort programma’s) en daarna een ‘Jus Lentis’ blog begint met een robo-Arnoud die dagelijks een blog genereert.

    Mag dat dan zomaar?

    Je doelt denk ik ook op artikel 15 Auteurswet ipv artikel 150 (dat niet bestaat)? In je nieuwe boek ga je in hoofdstuk 3 heel kort in op scraping, maar niet op dit soort content-generatie volgens mij.

  4. De chatbot heeft geen politieke voorkeur voor een specifieke politieke partij (het weet dat het niet kan stemmen, en dat politiek een gevoelig persoonlijk onderwerp is). De chatbot heeft wel een voorkeur voor wetenschap en gelijkwaardigheid. Dat sommige partijen dichterbij de wetenschap en gelijkwaardigheid staan dan anderen is dan toevallig zo.

    Trainen op nepnieuws en discriminerende opinies is nog steeds waardevol. Nepnieuws is gelukkig zeldzamer dan feitelijk nieuws, zodat, in aggregatie, nooit het nepnieuws gaat overheersen, maar als marginale mening blijft. Een taalmodel kan niet nepnieuws herkennen en bestrijden, als het niet weet wat dit is, hoe dit eruit ziet, hoe het zich verhoud tot de werkelijke feiten. Zelfde met discriminatie. Dankzij trainen op discriminatie, weet het nu dat een gebruiker discriminerende assumpties heeft, en zal het dit corrigeren, niet proberen zo goed mogelijk te beantwoorden, al was het een legitieme vraag of taak.

    Googlebot indexed nu al sites als sites hier toestemming voor geven. Dus als prive gegevens op een publieke site staan, dat mag dat als training data dienen. Het wordt een probleem als dit werkelijk naar boven komt tijdens operationarisatie. Maar daar is zorgvuldig (Google laat je gewoon zoeken op die gegevens) mee omgesprongen. Prive-gegevens zoals telefoonnumers worden uit de train data gestript. En de bot wordt zo ingesteld dat het prive-gegevens patronen kan herkennen, en deze dus niet als output geeft, ook al heeft het kennis ervan.

    “Representatief” is een breed woord. Om representatieve dataset te maken, moeten alle opinies en spraak hier inzitten. Ook de onzin en scheve rommel moet hier in zitten. Ook de godslaster van Gerard Reve. Anders heb je een gesaniteerde dataset met een sterke bias. Representatieve data is dus inclusief: “voor vrijheid van meningsuiting, tegen de islamisering van Europa, tegen de EUSSR, tegen de mainstream, voor het behoud van westerse waarden en tradities en pro-Israël”.

    Als de data of meningen werkelijk onwettelijk zijn, dan hadden ze niet op het publieke web moeten blijven bestaan. De data of meningen zijn echter onwenselijk voor bepaalde mensen die op SP of D66 stemmen. Door niet illegale data uit de train data van AI te houden, ben je juist bezig om een politieke voorkeur op te dringen. Objectief gezien zou dat het omgekeerde moeten zijn van wat je wil of uitdraagt.

  5. Uit het artikel zelf:

    Kunstmatige intelligentie kan niet zelf denken. Dat betekent dat alle informatie die eruit komt er op een gegeven moment ook in is gestopt, en andersom. Slaagt een chatbot voor je rijexamen theorie? Dan heeft-ie waarschijnlijk een paar behoorlijk ingevulde rijexamens als trainingsmateriaal gezien.

    Dit is echt onjuist (nepnieuws?). Niet dat ik dat uit de train data van toekomstige AI modellen wil halen, maar het is wel een beetje ironisch. Kunstmatige intelligentie is niet een databank of memorisatie. Het kan werkelijk nieuwe feiten, concepten, creatieve verhalen, en wetenschap produceren. Het kan verschillende concepten combineren die nog nooit eerder zijn gecombineerd.

    Bijvoorbeeld, wanneer het zegt “Als een AI taalmodel heb ik geen persoonlijke voorkeur”. Er is geen Nederlandse website waar dit te vinden is. Een sterker voorbeeld: Het kan nieuwe woorden maken, omdat het de regels van compounding snapt:

    Mensenrechtenwetgevingsimplementatiecommissie – A committee for the implementation of human rights legislation.

    Dit woord is nooit in de training data erin gestopt, maar werkelijk nieuw gemaakt, volgens correcte grammaticale regels.

    En slaagt een chatbot voor je rijexamen theorie? Dan is dat omdat het de regels snapt en weet. Trainingsmateriaal wordt niet herbruikt (anders zou je het kunnen memoriseren). En ChatGPT slaagt ook op nieuwe examens waar de antwoorden nog niet zijn gepubliceerd.

    Het is dubbel ironisch als je als journalist ChatGPT niet snapt, maar het dan incorrect beschrijft voor een breed publiek als zijnde een techniek die zelf niets snapt. Ook is daarmee de hele basis van het artikel (kritiek op train data en de samenstelling) op losse schroeven komen te staan. Als je klaagt over beide nepnieuws en auteursrechtenschending op feitelijk nieuws, wat blijft er dan nog over om van te trainen? Natuurlijk had het netter geweest als OpenAI een paar biljoen had uitgetrokken om hoge kwaliteit databronnen te belonen. Maar “netjes” koop je niets voor, of is niet tegen de wet.

  6. Daarom wordt consequent heel internet gedownload.

    Behalve mijn site en die van UMI (Union Mundial pro Interlingua) dan, want van de inhoud daarvan was ChatGPT merkbaar niet op de hoogte. En ook de Wikipedia is kennelijk niet gebruikt. Vanwege de licentie?

    Kortom: ik zag dat bericht ook, een paar dagen terug, en vond het nogal twijfelachtig.

  7. er zitten ook bronnen zoals het Juridisch Loket, de overheid en Wikipedia in

    Maar ChatGPT (of ging het artikel over iets van Google? Was nogal vaag) weet niet wat het Kattegat is, niet dat Stille en Grote Oceaan hetzelfde is, niet hoeveel strijkkwartetten Bartók schreef, die verwart hij met Beethoven maar daarvan klopt zijn info ook niet. Hoe kan dat nou? Ik geloof het allemaal niet zo erg.

  8. Thorvald schreef:

    Maar om het nu een overheidstaak te noemen dat er een kwalitatief goede en representatieve dataset komt voor de Nederlandse taal gaat wellicht ook wat ver?

    Voor literatuur is die er al: de “digitale bibliotheek voor de Nederlandse letteren”, de dbnl. Laatst nog gemak van gehad, ik kon er onterechte kritiek die ik 22,5 jaar geleden publiceerde, nu mee rechtzetten: https://rudhar.com/musica/slawcrnl.htm .

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.