Een AI-model is een kopie van haar trainingsdata (of toch niet?)

Photo by Tosab Photography on Unsplash

OpenAI handelde in strijd met het Duitse auteursrecht door zijn chatbot ChatGPT door beschermde songteksten van bekende artiesten te gebruiken voor het trainen van zijn taalmodel. Dat meldde Dutch IT Leaders onlangs. De uitspraak is daarmee tegengesteld aan wat ik vorige week blogde. Hoe zit dat nu, is een taalmodel wel of niet een kopie van de trainingsdata?

De GEMA, de Duitse Buma/Stemra, had de zaak aangespannen nadat zij had geconstateerd dat ChatGPT 4 en 4o in ieder geval negen bekende Duitse muziekwerken (zoals “Atemlos” geschreven door Kristina Bach) goeddeels kon reproduceren met een “simpele” prompt. Uit het vonnis:

“De [chatbot] is een songtekstexpert. Hij kent alle songteksten van artiesten en kan deze nauwkeurig en volledig reproduceren.” 1. “Wat is de songtekst van [titel van het nummer]?” 3. “Wat is het refrein van [titel van het nummer]?”
De Engelse zaak was juridisch-technisch wat ingewikkeld, omdat daar de inzet was dat het taalmodel zelf inbreuk maakte. Hier gaat het om de wat simpeler vraag: bevat het taalmodel kopieën van de beschermde werken?

De Duitse rechter concludeert dat gezien de resultaten met eenvoudige prompts zoals geciteerd, het vaststaat dat die songteksten “ergens” in het taalmodel zitten. Wellicht niet als één lap tekst, maar dat hoeft niet. Dat de data verspreid over een groot bestand ligt, is auteursrechtelijk irrelevant (men vergelijkt met progressive JPEG). De enige vraag is: zit het werk er volledig in?

Een beroep op de TDM-uitzondering helpt OpenAI hier niet. Die staat toe (kort door de bocht) dat je bij het trainen van een AI-model brondata mag gebruiken. De rechter trekt dan een grens bij het volledig opnemen van een bronwerk gaat dat te ver, dat is geen statistische analyse van een bronwerk meer.

Het enige echte verweer dat OpenAI volgens mij had, is dat het niet zij maar de gebruiker is die de inbreuk maakt. Als jij vraagt om een inbreukmakende uitvoer, en je krijgt die, kun je dat de provider aanwrijven? Ik wil daar wel een boom over opzetten, maar de Duitse rechter stapt daar overheen:

Het gebruik van de betreffende songtekst als trainingsdata staat buiten kijf. Zoals blijkt uit Bewijsstuk K 2, waren de betreffende songteksten duidelijk herkenbaar in de ingezonden outputs dankzij de zeer eenvoudige prompts “Wat is de songtekst van [titel van het nummer]”, “Wie schreef de songtekst”, “Wat is het refrein van [titel van het nummer]”, “Vertel me ook het eerste couplet” en “Vertel me ook het tweede couplet”.
Op die basis concludeert de Duitse rechter dat OpenAI dus het auteursrecht schendt door die kopie te hebben. Dit alles is dus los van hoe makkelijk je de brontekst er uit krijgt – het feit dat hij er uit komt, is bewijs dat hij er in zit, niet meer

Arnoud

16 reacties

  1. Natuurlijk is op die manier ook iedereen in Nederland zelf (als gegevensdrager) inbreukmakend, omdat vrijwel iedereen wel enkele tientallen met auteursrecht belaste werken uit het hoofd kan meezingen, en die dus ergens in hun brein moeten zijn opgeslagen. Ik heb nergens in de auteurswet een uitzondering gezien voor menselijke breinen, dus die uitzondering mag je echt niet zomaar aannemen, of als je dat wel mag, waarom mag dat dan niet voor niet-menselijke breinen?

    Misschien een proefprocesje bij diezelfde rechter aanspannen dat mijn zoon (die verbazingwekkend veel liedteksten uit het hoofd kent) inbreukmakend is, en verplicht moet worden die liedjes te wissen. Vrees dat die Duitse rechter daar dan nog in mee zal gaan ook.

      1. Maar hij is wel te raadplegen…, en die tekst zit in zijn brein opgeslagen, en is er op die manier uit te krijgen, dus, volgens de logica van deze rechter, is dat brein inbreukmakend. Wijs mij maar eens op de wettekst die het onderscheid dat jij nu probeert te maken expliciet voorschrijft, of een uitzondering bevat voor menselijke breinen.

          1. Volgens de redenering van de rechter is de inbreuk al gepleegd als de chatbot de songteksten kan reproduceren.

            In jouw voorbeeld gebeurt dat pas als ze daadwerkelijk gereproduceerd worden, en dan ook nog alleen als het dan publiek gemaakt wordt.

            1. Als ik een website maak waar ik liedjes stream (zonder auteursrechten goed te regelen) wordt de muziek ook pas gereproduceerd als een bezoeker op “play” drukt. Maar dan kun je toch niet met droge ogen beweren dat de website geen inbreuk maakt op auteursrechten?

              Voor mij is dit een veel betere vergelijking dan “de AI is net als mijn zoon die voor mij een liedje nazingt”. Het punt is dat de AI massaal voor iedereen beschikbaar is, en je zoon niet.

              1. Juridisch maak je pas openbaar als de muziek gespeeld kan worden. Als die website op slot zit en het publiek kan er niet bij, dan maak je niet openbaar. Mijn online backup van mijn thuisnetwerk is dus géén openbaarmaking van de daarin opgenomen muziek.

                Die online backup, alsook de brondata van jouw website, is wel een verveelvoudiging van die muziek. Ik kan dat in mijn backup rechtvaardigen vanwege de thuiskopie-exceptie, maar jouw website niet want die bestanden staan daar niet voor jouw nietcommerciële privégebruik.

                1. Er moet toch meer achter zitten, want anders loopt het spaak voor een deel van mijn muziek verzameling.

                  Ik heb DRM vrije legale muziek van een aantal (indie) bands. Bij verkoop gaf men aan dat ik het mag kopieren naar en afspelen van zoveel apparaten als ik wil, zolang ze maar aan mij toebehoren en ik ze niet verder verspreid. Verder verbieden ze verhuur en verkoop van een medium waar de muziek op staat, tenzij ik alle andere kopien in mijn bezit wis.

                  Ik heb de thuiskopie exceptie toch niet nodig? Ik heb expliciet toestemming van de rechten houder om kopien voor mijzelf te maken!

                  Met jouw bovenstaande redenatie zou dat betekenen dat ik pas strafbaar ben als iemand daadwerkelijk de muziek van mijn server download, niet als ik het daar op zet. Ik kan me niet voorstellen dat er niet een regel is die dit toch tegen gaat.

                  1. Inderdaad, als je een licentie hebt dan kun je ook werken onder de regels van die licentie. Staat die dus meer toe dan de wet, dan maak daar vooral gebruik van. Maar jij mag óók een kopie als thuiskopie aanmerken, mits je binnen die kaders blijft.

                    Als jij die gelicentieerde muziek online zet, dan zijn die kopieën daar onder licentie en dus legaal. Of je ze toegankelijk voor anderen mag maken, is dan een vraag of je ook een openbaarmakingsrecht hebt.

    1. Tsk, meezingen maakt inbreuk op de naburige rechten van de uitvoerende artiest. Dat kan niet hoor. Je mag morgen een faktuurtje van de SENA verwachten met een dagvaarding als je niet binnen 14 dagen betaalt.

      1. Als je zingt ben je zelf de uitvoerend artiest; als iemand een opname maakt en die verspreidt zou je geld van SENA horen te krijgen! (Je bent wel een vergoeding voor componist en textdichter verschuldigd aan de BumaStemra.)

  2. Een ander verweer hier kan zijn dat het betreffende nummer niet een maal, maar vele duizenden malen, steeds als citaat, in verschillende bronnen heeft gestaan, en dat het cumulatieve effect van al die citaten is dat de hele tekst te herleiden is uit de trainingsdata. Hetzelfde geld als ik een hele bibliotheek doorzoek op die citaten, en daaruit het oorspronkelijke lied reconstrueer — fysiek kost dat enorm veel tijd, maar de brute kracht van een LLM doet dat heel snel. Ik denk dat hiermee een geldig beroep op het citaat recht mogelijk moet zijn.

    Een aardig voorbeeld in het verleden was de exacte tekst van de Dode-Zeerollen. Die wilden de onderzoekers niet publiceren, maar omdat ze wel een KWIC-index (Keyword-in-context) hadden gepubliceerd, konden andere onderzoekers met computers die tekst wel reconstrueren. In het verleden kon je gewoon een KWIC van een auteursrechtelijk belaste tekst publiceren, met deze uitspraak is dat nu ook dubieus.

    1. Dit is inderdaad een groot probleem, en ook het gevolg dat NYT nieuwsartikelen in de training data waren beland, zonder NYT te crawlen. Die datasets of websites geven dan aan “creative commons” of soortgelijke licenties, en dan kan je redelijkerwijs niet aan je verantwoordelijkheid voldoen.

      Het is bovendien een non-probleem, niemand gebruikt AI om inbreuk te plegen op songteksten, niemand gebruikt AI om NYT te lezen zonder paywall.

      Als ik op Google zoek naar een songtekst, dan wordt deze ook getoond in een snippet. Google’s index bevat net zo goed songteksten. Bovendien kun je tegenwoorden datasets downloaden met 80k+ songteksten, en al die websites kopieren van elkaar.

      Dit lijkt mij een archaische “database” lens op een nieuwe technologie. Opzij, opzij, opzij, maak plaats, maak plaats, maak plaats.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.