Datasetmakerscollectief LAION heeft een rechtszaak wegens auteursrechtinbreuk gewonnen van fotograaf Robert Kneschke. Dat meldde onder meer TechnoLlama vorige week. LAION hoeft de vermeldingen van de foto niet te verwijderen omdat ze zich op de text and data mining (TDM) uitzondering in de Auteurswet kan beroepen. Een opsteker voor anderen die met datasets werken, bijvoorbeeld om er AI modellen mee te trainen. Maar de impact is beperkt.
In mei vorig jaar diende Kneschke een claim in tot verwijdering van zijn foto’s uit de dataset. Hij kreeg een factuur van de advocaat van LAION voor het afhandelen van het verzoek, en stapte daarop naar de rechter. Ik blogde toen:
Het Duitse LAION project onderhoudt een van de bekendste datasets met geannoteerde afbeeldingen, waarmee AI systemen getraind kunnen worden. De bekende afbeeldingsgeneratoren zoals Midjourney en Stable Diffusion gebruiken LAION. Een discussiepunt bij dit soort sets is of hier sprake is van auteursrechtinbreuk, wat onder meer tot deze class action rechtszaak leidde.De LAION dataset is enorm – zo’n 6 miljard afbeeldingen. Ook populair, alle grote AI afbeeldingengeneratoren bouwen op de dataset van LAION. Maar let wel, LAION bundelt niet een berg plaatjes in een zipfile. Ze hebben alleen metadata, in een gestructureerd formaat. Zeg maar URL en annotaties. Wil jij die dataset gebruiken, dan download jij wat je nodig hebt en plak je de metadata van LAION erbij.
Een set links is natuurlijk geen inbreuk (Svensson-arrest) maar het downloaden zul je zelf moeten verantwoorden. En daar komt die TDM uitzondering om de hoek kijken. LAION deed daar een beroep op. Ja, ze hadden elke afbeelding natuurlijk een keer gedownload maar dat was voor kwaliteitsdoeleinden en daarna werden deze weer gewist.
Is dat TDM? De wet (art. 25 Aw) definieert het als volgt:
In deze paragraaf wordt onder tekst- en datamining verstaan een geautomatiseerde analysetechniek die gericht is op de ontleding van tekst en gegevens in digitale vorm om informatie te genereren zoals, maar niet uitsluitend, patronen, trends en onderlinge verbanden.Afbeeldingen zijn natuurlijk dergelijke gegevens en de metadat die LAION maakt, telt als “informatie genereren”. Dus dat zit wel goed. De vervolgvraag is onder welke voorwaarden je dit mag doen.
Onderzoeksorganisaties en cultureel erfgoedinstellingen mogen TDM Doen “met het oog op wetenschappelijk onderzoek” (art. 15n Aw). De rest van de wereld mag dat ook, maar moet machine-leesbare opt-outs respecteren. LAION is een nonprofit, maar is dat genoeg om “onderzoeksorganisatie” te mogen heten? Hier wreekt zich het probleem dat termen als “wetenschap” of “onderzoek” juridisch niet gedefinieerd zijn.
In het vonnis onderbouwt de Duitse rechter waarom LAION wél een dergelijke instelling is:
Wetenschappelijk onderzoek verwijst doorgaans naar het methodisch-systematisch nastreven van nieuwe kennis (…). [Het mag] niet zo eng worden opgevat dat het alleen de werkstappen zou omvatten die rechtstreeks verband houden met het verwerven van kennis; Veeleer is het voldoende dat de betreffende werkstap gericht is op het (later) verwerven van kennis, zoals bijvoorbeeld het geval is bij talloze dataverzamelingen die eerst moeten worden uitgevoerd om vervolgens empirische conclusies te kunnen trekken. Met name de term wetenschappelijk onderzoek veronderstelt niet het succes van later onderzoek.LAION stelt de dataset samen en verbetert deze, waarna ze de resultaten publiceren zonder bijzondere voorwaarden of licentievergoedingen. Dat voldoet al aan de omschrijving. Natuurlijk weet LAION heel goed dat de grote commerciële AI-bedrijven precies hun dataset graag gebruiken. Maar dat is irrelevant, omdat dat andere bedrijven zijn.
Het is in zoverre jammer dat hiermee de vraag over de reikwijdte van het begrip “opt-out” niet beantwoord hoeft te worden, omdat dat pas speelt als LAION géén onderzoeksinstelling zou zijn geweest.
Er wordt zijdelings ingezoomd op een aspect van die discussie, namelijk of een AI niet gewoon een zin als “niet voor TDM gebruiken” had kunnen lezen. Ik vind dat een storende aanname, kort gezegd omdat ook juristen prima van mening kunnen verschillen over de interpretatie van een zin en het dus licht absurd is te denken dat ChatGPT dan wél de beoogde conclusie kan trekken.
Arnoud