Mijn foto is een datapunt in iemands AI, kan ik een schadevergoeding krijgen?

Simon / Pixabay

Via de website “Have I been trained” kun je achterhalen of jouw foto gebruikt is om een AI te trainen, las ik bij Ars Technica. Of nou ja, iets preciezer: of je foto in een van de enorme datasets zit waarmee tegenwoordig alle beetje fatsoenlijke AI’s worden getraind. Want die datasets zijn meestal zonder het ook maar iemand te vragen opgebouwd, dus een beetje pixeljager zou daar wel geld moeten zien. Maar valt er wel wat te eisen?

Wie een machine learning systeem wil trainen, heeft data nodig. Dat geldt voor iedere applicatie, maar voor afbeeldingen is het helemaal een complexe eis: waar haal je die enorme hoeveelheid plaatjes vandaan die nodig is om een adequate brede dekkingsgraad van je AI-toepassing te krijgen? Nou ja, dat pluk je gewoon van internet want als je het maar massaal genoeg verzamelt is het geen auteursrechtinbreuk meer maar innovatie (cf. Google Images).

De state of the art dataset tegenwoordig is LAION-5B,met 5,85 miljard afbeeldingen verreweg de grootste. Bijeengebracht voor researchdoeleinden en experimenteren met zulke enorme sets, aldus de website. “The images are under their copyright”, staat er dan ook. En dan de juridische truc, of nou ja truc, waarmee dat kan: elk item uit de dataset bevat simpelweg alleen de bron-URL van de afbeelding, waarmee de dataset zelf geen inbreuk is.

De dataset is voor haar doel buitengewoon nuttig: bij elk plaatje staan labels zoals wie of wat er te zien is. Met dergelijke metadata kun je systemen trainen die daarmee nieuwe afbeeldingen kunnen maken op een zelfbedachte suggestie (“copyright symbol racing against computer“). Die leren dan op basis van die metadata wat er zoal mogelijk is bij een dergelijke tekst.

Als je nu een dataset maakt door al die afbeeldingen te downloaden en daarmee een AI traint, heb je dan auteursrechten geschonden? De eerste stap – het downloaden – is voor onderzoekers of bedrijven problematisch, omdat in Europa in ieder geval zoiets buiten de thuiskopie-regeling valt. In de VS is dit mogelijk fair use, het staat immers legaal online en het downloaden van een afbeelding is dan fair. 

De volgende stap is het trainen van een machine learning model, waarbij dus allerlei features van die afbeeldingen worden geëxtraheerd en in combinatie met die metadata tot een algoritme wordt omgezet waarmee nieuwe afbeeldingen worden gemaakt. In principe zijn die echt nieuw, maar er zitten soms wel herleidbare stukjes in, zoals in deze foto met herkenbaar Getty watermerk. (Ik weet niet of dit is omdat het stukje met het watermerk paste bij de prompt of omdat het systeem heeft geleerd dat goede foto’s vaak een Getty watermerk dragen, en daaruit concludeerde dat dit erbij hoort.)

Het belangrijkste is, je kunt aan een AI eigenlijk nooit zien of jouw foto’s er specifiek in zitten. Deze tool maakt voor het eerst soort van dat wél mogelijk, althans als de AI-exploitant dus meldt dat hij met LAION-5B werkt (wat op zich een normale melding is, want het is nodig voor benchmarking). En dan kun je dus een claim doen, want gegarandeerd dat er dan bij dat bedrijf ergens een zipfile rondzwerft met een kopie van jouw foto(‘s).

Alleen: wat is je schade? Dit probleem is fundamenteel bij het auteursrecht online, zeker voor mensen die hun werk gratis op internet zetten. Want dan kun je niet eens de gemiste licentiekosten als schade opvoeren. En hier speelt dan ook nog eens dat we niet weten wat je auteursrechtelijk precies doet als je een foto omzet naar een berg datapunten waarmee je een image generator maakt.

De makers van deze tool hebben een iets andere insteek: zij willen dat de AI community vrijwillig overstapt naar een model waarbij toestemming de norm is, juist om de kleine creatieveling te beschermen. En dat is een heel nobel streven, met natuurlijk de kanttekening dat er weinig prikkel is om bij dit soort bedrijven hier op over te stappen.

Arnoud

 

11 reacties

  1. “If you found your name only on the ALT text data, and the corresponding picture does NOT contain your image, this is not considered personal data under GDPR terms. Likewise, your image on a picture that is not associated with your name or other identifiable data on text is also not considered personal data.” Ehhhh??? https://laion.ai/gdpr/ Mijn naam is geen personal data?

    1. Op zich zou dat best wel kunnen.

      De GDPR heeft betrekking op persoonlijke data die min of meer gestructureerd is opgeslagen voor verwerking. Je kunt je afvragen of in een compleet willekeurige berg foto’s of beschrijvingen een individuele foto van een persoon of een naam die verder niet aan andere data gekoppeld zijn nog inderdaad als persoonlijke data gelden in de zin van de GDPR.

      Bovendien geldt dat persoonsgegevens die gegevens zijn, die naar een natuurlijke persoon herleid kunnen worden. Een willekeurige naam in een grote dataset die niet gekoppeld is aan andere indentificerende kenmerken, voldoet mogelijk niet aan dat criterium. Immers, verwijst ‘Alex Smith’ naar jou, of naar één van de vele andere Alex Smiths op deze wereld? Er zal doorgaans meer informatie gekoppeld moeten zijn aan een naam om die te kunnen herleiden naar een daadwerkelijk individu (tenzij je X Æ A-12 heet).

  2. Waarom valt dit in Europa niet onder de Thuiskopie regeling? Er wordt toch niet uit een illegale bron gedownload? Verder vraag ik me af of er inbreuk is, als de foto niet wordt gepubliceerd of verveelvoudigd. Zo vind ik nog altijd dat een download nog altijd geen verveelvoudiging. En het trainen van een AI en het daarna publiceren van de getrainde AI lijkt me echt geen publicatie van de foto zelf.

    Ik vind het wel anders, wanneer je een AI opdracht geeft om uit een set foto’s zelf een verhaspeling te maken. Dat mag een AI net zo min of juist wel als dat een mens het zou doen.

    1. De thuiskopieregeling geldt alleen voor consumenten met strikt persoonlijke doeleinden. Een AI maken is zeer zeker geen strikt persoonlijk doel, tenzij je ‘m alleen voor jezelf inzet en nooit een ander ermee laat interacteren. Volgens het Hof van Justitie is een download een verveelvoudiging. Waarom volgens jou niet? Er was eerst één kopie op de server, nu zijn er twee want op jouw harddisk staat er nu ook een. Dat is toch letterlijk verveelvoudigen, multipliceren?

      De foto wordt verveelvoudigd wanneer hij de trainingset in gaat. Ik ben er nog niet over uit wat er gebeurt als je daar 65kx65k punten uit extraheert en daar een lineaire regressie overheen doet of iets dergelijks, wat is dan de uitkomst van die regressie in auteursrechtelijke zin? Hier wreekt zich het beperkte begrip voor statistiek bij juristen.

      1. De auteurswet spreekt over ‘openbaarmaken en verveelvoudigen’. Met een logische EN dus. Is er een argument te bedenken dat als je alleen verveelvoudigt (downloaden) maar niet openbaarmaakt, dat je dan niets fout doet?

        En kan de onderzoeker zich beroepen op Art 15n (datamining)? Ik zie dat niet als kansloos.

        Ook art 16b1 zou gebruikt kunnen worden. De onderzoeker download immers maar 1 exemplaar voor studie.

        1. De logische en is in art1 = recht, in het artikel over inbreuk is het OF https://wetten.overheid.nl/BWBR0001886/2022-06-07 Art 1 Het auteursrecht is het uitsluitend recht van den maker van een werk van letterkunde, wetenschap of kunst, of van diens rechtverkrijgenden, om dit openbaar te maken en te verveelvoudigen, behoudens de beperkingen, bij de wet gesteld. Art 5.2 Als inbreuk op het auteursrecht op het gansche werk wordt beschouwd het verveelvoudigen of openbaar maken van eenig daarin opgenomen afzonderlijk werk, waarop auteursrecht bestaat, door een ander dan den maker daarvan of diens rechtverkrijgenden.

          1. Jouw interpretatie lijkt logischer dan de mijne, dat geef ik toe. [Hoewel, daarover kun je een hele boom opzetten: aangezien het auteursrecht een beperking van de vrijheden van iedereen, ten gunste van enkelen, is, past daarbij een nauwe, niet brede, lezing van de betreffende wettelijke bepalingen]

            Maar het ging me eigenlijk meer om de rechtvaarding onder Art 15n en/of 16b1.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.