Getty Images heeft dinsdag grotendeels verloren in de rechtszaak in Londen tegen het AI-bedrijf Stability AI over diens beeldgenerator. Dat meldde Reuters. Hoewel de generator (Stable Diffusion) was getraind op Getty-content én Getty-foto’s kon reproduceren, vond de Engelse rechtbank dat geen sprake was van rechtenschending. Hoe zit dat?
Stable Diffusion is een van de oudste beeldgeneratoren. De kern van de werking is het diffusiemodel, waarbij uit een startafbeelding ruis wordt verwijderd op basis van een prompt, om te komen tot een resultaat dat statistisch correspondeert met de in de trainingsdata aangeleerde patronen.
Die trainingsdata kwam van internet natuurlijk. Iets preciezer van het LAION-datasetcollectief. Deze bevat dan weer tienduizenden afbeeldingen waar Getty auteursrecht op had, wat voor het stockfotobedrijf reden was om een rechtszaak te beginnen.
Probleem: een diffusiemodel bevat niet letterlijk kopieën van die foto’s. Die zijn gebruikt om op te trainen, om die patronen uit te ontwaren. Bij dat trainen worden natuurlijk kopieën gemaakt, alleen was hier de complicatie dat dat niet in Engeland was gebeurd. Dus dat kun je onder Engels recht niet als inbreuk behandelen.
Het Engelse vonnis behandelt dan ook de kwestie als secondary infringement, oftewel het invoeren van een kopie naar het grondgebied van het Verenigd Koninkrijk. En dan wordt het nog knap ingewikkeld: kun je een AI-model, een diffusiemodel, wel zien als een kopie van haar trainingsdata?
Dit is een hele fundamentele vraag. Modellen leren patronen, maar leggen daarmee niet de trainingsdata zelf vast. Of toch wel? Het is (soms) mogelijk om specifieke bronafbeeldingen te reconstrueren, wat het vonnis “memorized images” noemt. Onduidelijk is of dat inherent is, hoe wijdverspreid dat gaat en in hoeverre de prompt daarin meeweegt (Nasr et al, Su et al).
De rechter kreeg vele analogieën aangereikt, maar dat bleek hier eerder verwarrend dan behulpzaam. Hij gaat daarom terug naar de wet zelf, die spreekt van een “infringing copy”. Dat wil zeggen, letterlijk lezend, dat er een kopie van een beschermd werk in zit. En dat is niet het geval, althans dat blijkt niet uit het bewijs. Kopieën zijn wel gebruikt bij het maken van het diffusiemodel, maar ze zitten er niet in.
Kern van deze conclusie is wel dat Getty had ingezet op “de modelgewichten en het model als zodanig is per definitie een kopie van de trainingsdata”. Die stelling wordt als te algemeen en te kort door de bocht verworpen.
De insteek “met het diffusiemodel kunnen kopieën worden gemaakt van onze foto’s” had een andere conclusie gegeven, maar dan kom je bij discussies als “de dienst zet aan tot inbreuk” en de vrijwaring voor dienstaanbieders en ik denk dat Getty daar weg van wilde blijven.
Het is één uitspraak in 51 zaken wereldwijd en ongetwijfeld wordt hoger beroep ingesteld.
Arnoud

Je mag niet een (recent) schilderij of boek namaken en hier op er markt brengen. Ook niet als je dat in het buitenland doet vanuit je geheugen. Dat laatste is als het ware wat de AI doet. Wat is het verschil?
Het verschil zit hem denk ik in de vraag of je hier een kopie van een bronwerk maakt, of dat je toevallig een sterk gelijkend werk maakt. Dat laatste is géén inbreuk, al is het natuurlijk moeilijk te bewijzen.
Is er nog geen complete bibliotheek over de vraag waar de grens tussen “toevallig sterk gelijkend” en “kopie” ligt?
Het lijkt me niet dat die grens afhankelijk van de vraag of er AI of natuurlijke intelligentie gebruikt is.
Het is nogal casuïstisch. Een belangrijke is of je de bron kón hebben gebruikt (mijn geheime rapport lijkt op jouw geheime rapport). Ook externe factoren (een broekzak kan niet op zó veel manieren vormgegeven) spelen mee. De intentie wordt ook wel naar gekeken maar is natuurlijk lastig te achterhalen. Vaak zie je dat men de bewijslast omkeert als het sterk lijkt: bewijs maar hoe jij vanaf je eerste schets tot dit product kwam, alleen dan geloven we dat jij het echt zelf bedacht hebt.
Het ligt een heel stuk subtieler. Het AI model kan met de juiste prompt een kopie (interpretatie) van een werk produceren. Met een andere prompt produceert het iets dat nog niet eerder gepubliceerd is. Het is niet zo dat het AI model kopieën van alle trainingsbeelden bevat, nee die beelden zijn “versnipperd” en het model bevat getallen die aangeven welke snippers goed elkaar passen en welke slecht.
Het is de gebruiker van de AI die via de prompt om een afbeelding vraagt, daar begint het productieproces van beelden en ook van mogelijke kopieën.
Maar als ik jou vraag om hier uit het hoofd de Ilias op te schrijven, die je in Griekenland hebt geleerd, wordt er toch nog steeds in Nederland auteursrechtinbreuk gepleegd, ware het niet dat de oorspronkelijke auteur al heel lang dood is. Dus ik vind het geen sterk argument, dat het van de prompt afhangt.
Het is voor mij meer “maakte je het bronwerk na” dan wel “heb je iets gemaakt dat sterk lijkt”. Als ik een standbeeld moet maken van een man die peinzend over het universum nadenkt, is de kans reëel dat ik in de buurt van de Denker van Rodin uitkom. Misschien heb ik in mijn kunstenaarsopleiding dat beeld zelfs bestudeerd. Maar ik zou dat beeld van mij dan geen kopie van de Denker noemen.
Maar daarmee is jouw hoofd (of wat er in jouw hoofd is opgeslagen) zelf nog niet inbreukmakend. Ik kan een hele reeks populaire liedjes meezingen, en zolang ik dat doe binnen de besloten familie- en vriendenkring is dat geen enkel probleem, maar als ik dat ga doen in een café, of zelfs liedjes ga schrijven en uitgeven waar letterlijk hele coupletten van die liedjes inzitten (zonder een beroep te doen op een van de beperkingen, zoals citaatrecht of persiflage), dan kan het zijn dat ik inbreuk maakt. Hetzelfde geldt in principe ook voor die AI, want waarom zou dat anders zijn?
Ik volg dus MathFox: wat mij betreft is de gebruiker van het gereedschap verantwoordelijk voor de output van een LLM, en de potentiële auteursrechteninbreuk die die kan veroorzaken.
Als auteursrechtenclubjes met slimme prompts er in slagen hele stukken van een tekst uit het systeem te halen: dat is een complexe manier om een fotokopie maken van een stuk tekst, en daarvan is al lang geleden vastgesteld dat niet de fotokopieermachine verantwoordelijk is.
De uitspraak lijkt mij de juiste uitkomst, al heb ik natuurlijk nog niet alle details doorgenomen.
Het lijkt me niet reeel om de gebruiker van zo’n dienst verantwoordelijk te maken of houden. Je kan van de gebruiker niet verwachten of verlangen dat die van alle content die zo’n model kan genereren kan bepalen of het wellicht inbreukmakend is of niet.
Stel dat ik op <a href="https://thispersondoesnotexist.com/"ThisPersonDoesNotExist.com een foto genereer, en de gegenereerde foto lijkt puur bij toeval als twee druppels water op iemand die wel echt bestaat, heb ik dan diens portretrecht geschonden zonder dat ik het zelf weet?
Daarom pleit ik ook voor een digitaal auteursrechtenregister (een soort van kadaster voor auteursrechten), waarin alle werken dienen te worden opgenomen, en waar je via een eenvoudige website kunt controleren of er een werk is waarop die output (of een ander bestand wat je hebt verkregen) mogelijk inbreuk maakt, en wie de rechthebbende is.
Het kunnen aanbrengen van een zaak over auteursrecht wordt dan alleen mogelijk als het werk eerder is geregistreerd, en voor mogelijke inbreuken die dateren voor die registratie kun je dan alleen verwijdering eisen, maar geen schadevergoeding.
Een bewijsje dat je die database hebt geraadpleegd voor een werk dat je uitgeeft, en dat je daarbij geen resultaat hebt teruggekregen is dan gelijk een vrijwaring voor dit soort schadeclaims. (Natuurlijk blijven bestaande verdedigingen, zoals onafhankelijke creatie, citaatrecht, onvoldoende creativiteit, etc., gewoon gelden, maar dat zul je dan wel moeten kunnen aantonen.)
Binnen de huidige technologie lijkt me dit niet zo heel lastig te bouwen, en kan het dan ook een eind maken aan al die ellendige fototrollen en andere wazige auteursrechtenpraktijken.
Nee, net zo min als dat je iemands portretrecht schendt, omdat je toevallig iemand op de foto zet die heel veel lijkt op een ander.
Maar als je dat bewust doet, dan is het natuurlijk een ander verhaal. Als ik stad en land afzoek na iemand die als twee druppels water op een bekende Nederlander lijkt, om de illusie te wekken dat die bekende Nederlander een zeker dubieus product aanbeveelt, dan kan ik daarin wel inbreuk op het portretrecht zien, ook al is het technisch geen foto van die bekende Nederlander.
Het Accidentalisme, een fantastische kunstvorm van Kamagurka. Wordt een fantasiefoto een portret omdat het na stad en land afzoeken toch wel lijkt op iemand?
Bedankt, geweldig gevonden naam ook. En inderdaad, dat kan onmogelijk een schending van portretrecht zijn.
p.s. kan jij de href fixen, ik ben een haakje vergeten.
En toen ik twee jaar geleden de toevalligheid ‘moedervlek in de vorm van Europa op de rug’ met Ursula von der Leyen koppelde was dat volgens jou WEL een persoonsgegeven….Huh?
Ik ben, net als Jeroen, meer van het nazingen van liedjes dan het uit mijn hoofd leren van stukken Literatuur (misschien een rol uit een toneelstuk).
Als ik de AI vergelijk met een fotokopieerapparaat, dan kunnen beide apparaten gebruikt worden voor auteursrechtinbreuk, maar ook voor legitieme doeleinden. De gebruiker bepaalt of zhij eigen (of open source) werk kopieert, en ook of en hoe zhij de gemaakte kopieën gaat verspreiden.
Als een AI een bestaand werk (deels) reproduceert is dat niet gelijk een auteursrechtinbreuk, zeker niet als de gebruiker de output weggooit en de AI vraagt een net iets ander werk te maken. (thuiskopie)