Een lezer vroeg me:
LinkedIn is inmiddels begonnen met het trainen van AI modellen met data van Europese gebruikers die geen opt-out deden. Ik had gelezen dat de Autoriteit Persoonsgegevens een onderzoek was gestart, maar heb daar niets meer over gehoord. Stel nu dat men op zeker moment oordeelt dat deze hele verwerking onrechtmatig was. Dan kunnen ze een verbod opleggen, maar kan dat dan ook met terugwerkende kracht?Voor wie het gemist had: LinkedIn gaat gegevens van Europese gebruikers toch inzetten om AI-modellen te trainen. Het betreft openbare berichten en er wordt met een opt-out gewerkt, waardoor het (denk ik) legaal is onder de AVG. Maar zeker weten doe je dat pas na een onderzoek van de toezichthouder.
Onderzoeken door AVG-toezichthouders kunnen inderdaad rustig langer dan een jaar duren. Daar is weinig aan te doen; grote partijen gebruiken ieder slordigheidje om de boete aan te vechten tot aan het Hof van Justitie. Dus zekerheid over de legaliteit van deze keuze moet helasa nog lang op zich laten wachten.
Als uit het onderzoek blijkt dat de verwerking inderdaad onrechtmatig is, dan heeft de toezichthouder een trits bevoegdheden onder de AVG. Naast boetes is een verwerkingsverbod zeker mogelijk. Dit staat in artikel 58 lid 2 onder f AVG, en direct daarna staat nóg een hele leuke “het rectificeren of wissen van persoonsgegevens of het beperken van verwerking”. Wat je in strijd met de wet gebruikt, moet je weggooien.
Specifiek bij AI-modellen is dit een hele venijnige. Waar je in een databank dan het record wist, moet je hier én je model én je trainingsdata ontdoen van die gegevens. Voor trainingsdata is dat nog tot daar aan toe (zeg me dat je data governance praktijken hanteert), maar voor het AI model is de consequentie meestal dat je die geheel van de markt moet halen. Want een model bijstellen zodat deze de persoonsgegevens van Yann of Aleid vergeet, is eigenlijk niet mogelijk.
Arnoud

Ik heb net zo’n hekel aan dit gedrag als een ander. Maar toch, even gedacht vanuit LinkedIn over terugwerkende kracht. Ze opereerden redelijkerwijs (gezien Arnouts conclusie dat het vermoedelijk legaal is) onder de aanname dat wat ze deden was toegestaan. Het kan voorkomen dat de toezichthouder later concludeert dat het toch niet toegestaan is, en dus sowieso dat LinkedIn vanaf dan dat niet meer zo mag doen. Echter, de vraag is of terugwerkende kracht dan redelijk is. De toezichthouder of rechter kan niet het onmogelijke vragen, zoals gezegd kan specifieke data niet uit een model gehaald worden. Eisen dat het model dan geheel afgeschreven moet worden, zou afbreuk doen aan de rechtszekerheid van een partij die dat dacht te handelen binnen wat de gestelde kaders toestonden.
Een rechter zegt “Dit is mijn uitleg van de wet”, dus die uitleg geldt vanaf het moment dat de wet er was, niet pas vanaf wanneer een rechter dat zegt.
We zitten hier niet in een Common Law land (UK/USA), waar precedenten impact hebben.
Het is toch geen onmogelijke eis. Het model weggooien en opnieuw beginnen is zelfs het eenvoudigste. Misschien vervelend, maar dat is een risico dat LinkedIn bewust neemt.
Precies. Als je bouwt en dat blijkt in strijd met de bepaalde richtlijnen te zijn, ondanks het verkrijgen van een vergunning, dan kan je zo een stuk van je gebouw af moeten halen.
Je gokt, je hebt verkeerd gegokt. Dan moet je op de blaren zitten.
Maar wanneer dat AI model door anderen als basis gebruikt wordt voor specifieke modellen betekent het dat die afgeleide modellen ook weggegooid moeten worden. Klanten die betaald hebben voor zulk modelgebruik zullen in de rij gaan staan voor een schadevergoeding.
en dan?
Elk jaar gaan er talloze bedrijven over kop na een verkeerde gok. Waarom zou LinkedIn hierboven staan?
Microsoft heeft genoeg in kas om redelijke schadevergoedingen (gratis hertraining van het model) te betalen en rechtszaken af te schrikken.
Maar dat is toch bij elk platform aan de hand wat AI traint op openbare persoonsgegevens? Want in principe is zo’n AI model dan in strijd met het ‘recht om vergeten te worden’.
Het enige wat je dan kan doen is het bestaande model wipen, de persoonsgegevens uit de trainingsdata halen en het model opnieuw laten trainen.