New York Times klaagt OpenAI aan om misbruik artikelen voor trainen van AI

The New York Times heeft OpenAI en Microsoft aangeklaagd voor het schenden van NYT’s auteursrecht. Dat meldde Tweakers in de kerstvakantie. De GPT taalmodellen van OpenAI zijn (mede) getraind op NYT-content, en met wat goed prompten kun je zelfs originele artikelen terugkrijgen, maar om het nou een kopieerapparaat te noemen? De vraag is dan ook fundamenteel: hóórt dit inbreuk op het auteursrecht te zijn?

De achterliggende reden is even banaal is veelvoorkomend: in april heeft de NYT onderhandeld met OpenAI en Microsoft om een betaalde licentiedeal te sluiten, maar dat is op niets uitgelopen. Er zijn meerdere van zulke gesprekken geweest, maar de details zijn schimmig. Het is goed gebruik dat als je onderhandelingen klappen, je naar de rechter stapt om ronde twee te initiëren met een miljardenclaim. (In de VS is auteursrechtelijke schade een vast bij wet vastgelegd bedrag, dus dat rekent makkelijk.)

Hoe toon je aan dat jouw content in de dataset zit waarmee GPT getraind is? Daar blogde ik in 2022 over: er zijn diverse trucs maar zekerheid heb je niet, want die diensten houden stevig de kaken op elkaar natuurlijk. Alleen bij de NYT ligt dat anders, want miljoenen van hun artikelen zijn opgenomen in de Common Crawl-dataset, de grootste dataset waarmee AI systemen worden getraind. En ook staat vast dat GPT getraind is met Common Crawl.

NYT ging nog een stapje verder: met een goed gekozen prompt krijg je gehele NYT artikelen eruit. Die “goed gekozen prompt” is dan wel de lead van het NYT artikel dat je wilde hebben, dus het voelt een tíkje sturend, en bovendien krijg je 95% van de originele tekst terug via de patroonherkenning die het LLM maakt. Het is geen kopieerapparaat maar een “raad het volgende woord” systeem, en dat wordt dan gedwongen om te raden met een zeer beperkte keuzevrijheid. LLMs slaan geen bronteksten op.

Is dat auteursrechtinbreuk? Voor mij voelt dat raar: OpenAI zoekt patronen in teksten, en gebruikt dat om nieuwe teksten te genereren. Dat is volkomen onvergelijkbaar met alle eerdere vormen van inbreuk die dankzij internet/ict mogelijk zijn gemaakt – die gingen allemaal over reproductie van de brontekst, zoals bij zoekmachines die snippets laten zien of torrentsites die helpen fragmenten te verzamelen. LLMs reproduceren de brontekst niet.

Dat roept natuurlijk het fairness argument op dat als jij miljoenen van iemands artikelen gebruikt om een systeem op te bouwen, die iemand daarvoor gecompenseerd zou moeten worden. Maar het auteursrecht is niet zo breed dat ieder gebruik of ieder voortbouwen op een werk automatisch inbreuk is, althans juridisch niet. De aanklacht van de NYT leunt zwaar op “journalistiek kost heel veel geld dus is het fair dat wij een vergoeding van OpenAI krijgen”, maar dat is geen juridisch argument.

Binnen de wet krijg je dan discussie hoe je termen als ‘openbaarmaking’ of ‘werk’ moet interpreteren in de context van dit soort verwerking van de data daaruit. Deze rechtszaak zou daar een gezaghebbend antwoord op kunnen geven – hoewel ik vrij zeker weet dat er geschikt wordt voordat het zover is, want OpenAI en Microsoft hebben al het geld (market cap 350x die van NYT) en de NYT heeft natuurlijk principes maar daar kan de kachel niet van branden.

Arnoud

 

 

 

 

 

19 reacties

  1. Als de vraag is “fundamenteel, hóórt dit inbreuk op het auteursrecht te zijn” dan zou ik teruggrijpen naar het doel van auteursrecht.

    Het doel van auteursrecht is volgens mij dat als je tijd/geld investeert in het schrijven van teksten, je een business model kunt maken over het verkopen van die schrijfsels, met als hogere doel het faciliteren dat er professioneel geschreven kan worden in welke vorm dan ook omdat dat in het belang van de samenleving is (journalistiek, literatuur, ..).

    Het businessmodel van NYT is gebaseerd op de artikelen die ze schrijven die je verbatim kunt lezen. Ik zie niet waarom iemand die het corpus gebruikt om te ‘leren’ om andere teksten te produceren een bedreiging zou voor het oorspronkelijke businessmodel. Dat lijkt me dus een antwoord op de fundamentelere vraag of dit auteursrechtschending hóórt te zijn.

    1. In de Amerikaanse grondwet is vastgelegd dat het auteursrecht dient om “wetenschap en kunst” te stimuleren; in het Nederlandse hebben we niet zo’n bepaling, het auteursrecht is hier een verdienmodel voor schrijvers uitgevers.

      Maar wat is eigenlijk het verschil tussen de wijze waarop een groot taalmodel (GTM) (zoals ChatGPT) de krant gebruikt en hoe het neurale netwerk van een mens de krant verwerkt? Student-journalisten moeten nieuwsartikelen lezen en analyseren om later goede nieuwsartikelen te kunnen schrijven. Betekent dat dat een krant recht heeft op meer dan het normale abonnementstarief als een student journalistiek de krant leest?

  2. Lijkt mij van wel. Het maakt niet uit hoe je iets reproduceert, maar dát je het reproduceert. Als AI iets vrijwel helemaal reproduceert, dan maakt het niet uit of ze nu wel of niet de brontekst letterlijk hebben opgeslagen. Ook die 95% lijkt me geen argument. Als ik een foto van iemand kopiëer en de resolutie verklein heb ik nog maar 50% van de foto – maar dat soort rekentrucjes zijn niet relevant. De foto is 1:1 herkenbaar en dat de bitjes anders zijn doet daar niet aan af.

    1. Wat er gebeurt is dat ChatGPT een aanzienlijk deel van een artikel reproduceert als de gebruiker specifiek vraagt om de reproductie van een artikel en ChatGPT daarbij voldoende hints levert. De gebruiker vraagt dus expliciet om de “auteursrechtinbreuk” (*).

      Belangrijke vraag is hier wie de inbreuk makende handeling verricht, zijn dit de makers van ChatGPT vanwege de (gecodeerde) opslag van het artikel, of is het de gebruiker die vraagt om een reproductie? In hoeverre speelt mee dat de wijze van codering en reconstructie van tekst in een neuraal netwerk niet garandeert dat de oorspronkelijke tekst terug te halen is?

      (*) Als een auteursrechthebbende vraagt om een kopie van zijn werk is dat geen inbreuk, want die kopie is op verzoek (dus met instemming) van de auteursrechthebbende gemaakt.

      1. Mooi argument! Dat triggert dan mogelijk de Section 230/Art. 6 DSA safe harbor bescherming van tussenpersonen:

        Wanneer een dienst van de informatiemaatschappij bestaat in de opslag van de door een afnemer van de dienst verstrekte informatie, is de dienstaanbieder niet aansprakelijk voor de op verzoek van de afnemer van de dienst opgeslagen informatie, op voorwaarde dat de dienstaanbieder: (…)

          1. Het is gebruikt in de trainingsdatabase, maar daarbij niet gereproduceerd in de zin dat je het artikel verbatim terug kunt vinden in het model; dit is veel meer analoog aan een mens die veel leest en daardoor feiten en fraseringen leert, en dat is nooit auteursrechteninbreuk geweest, maar kan daar wel toe leiden als je die persoon vraagt om, desnoods uit het hoofd, een zeker artikel te reproduceren (en daarmee inbreuk te maken). Je kunt het model met slimme prompt (Zoals de NYT gedaan heeft) die kant op sturen, maar dan gaat het mij te ver te zeggen dat het model inbreuk maakt, in tegendeel, het is de persoon die de prompts maakt, die de inbreuk initieert.

            Waar de NYT naar streeft is alleen al de potentiële mogelijkheid tot auteursrechteninbreuk te bestempelen als inbreuk. In de VS is dat idee al met het Betamax arrest verworpen. Een andere analogie is de Google zoekindex, die in de VS ook als “fair use” is bestempeld, en wat ik denk dat de enige juiste uitkomst van dit proces moet zijn (desnoods via wetswijzigingen).

            Ik denk dat Ira Rothken op Techdirt de juiste benadering aangeeft: Het auteursrecht op werken die door LLM worden gegenereerd moet (indien de prompt niet triviaal is) liggen bij de prompt-engineer, en de verantwoordelijkheid voor eventuele inbreuk op auteursrechten dus ook (waarbij ik wil aanvullen dat daar dus ook de verdediging van onafhankelijke creatie moet blijven gelden). Hierbij een link: https://www.techdirt.com/2024/01/05/copyright-liability-on-llms-should-mostly-fall-on-the-prompter-not-the-service/

          2. Maar het artikel zit als zodanig überhaupt niet in het LLM zoals aangeboden door OpenAI. Er zijn statistieken en patronen aan ontleend en daarmee wordt dat model geconstrueerd.

            De “reproductie” die je ziet, is het combineren van patronen om zo goed mogelijk bij een prompt aan te sluiten. Dat is voor mij fundamenteel anders dan artikel X zoeken dat goed past bij zoekopdracht A. Dan heb je artikel X in je database en match je op de inhoud daarvan.

            Ik zie dus die “reproductie” niet als een kopie van een artikel maar als een toevallige gelijkenis met het origineel. Die gelijkenis is tot stand gekomen door gebruikersinvoer – de prompt – en is niet artikel X dat is uitgelezen en doorgegeven. Het resultaat van de prompt is dus in mijn visie user generated content, vandaar de uitzondering voor de hoster van de dienst waarmee de UGC wordt gemaakt.

            1. Maar het LLM is toch niet bedoeld voor het opslaan van teksten die de gebruiker buiten het LLM heeft gemaakt? Het LLM is bedoeld voor het maken van de teksten zelf.

              Wanneer een dienst van de informatiemaatschappij bestaat in de opslag van de door een afnemer van de dienst verstrekte informatie

              Er wordt expliciet gesproken over “bestaat in de opslag”

              Dus ja het resultaat van de prompt is UGC, maar beschermt de LLM niet, omdat ze dat resultaat genereren ipv alleen maar opslaan (zoals e.g. pastebin doet).

              1. Dat is een goeie, waar vallen diensten die je iets laten genereren. “Typ een tekst en kies het lettertype van jouw keuze, download daarna je PNG met die tekst in dat lettertype”. Dat lijkt mij iets dat beschermd zou moeten zijn tegen claims, dus dat zou een hostingdienst moeten zijn. Is de 1 minuut hosting van die PNG genoeg?

                De tekst die je laat genereren met je prompt is dan ook gehost, want die staat op de server (al is het maar in je chatgeschiedenis). Zelfs als hij alleen live getoond wordt en na 60 seconden gewist, zou ik het al hosten van die gegenereerde tekst noemen.

                1. En dan kom je weer terug op de vraag, wie genereert de tekst? Is dat de gebruiker met zijn prompt of is dat de host waar de LLM draait?

                  Het probleem is dat als de website (en niet de gebruiker) de tekst genereert, dat de website deze vervolgens verspreid naar anderen. Een ander probleem is het als het LLM model met “daarin” de beschermde tekst verspreid wordt.

                  Over jouw lettertype voorbeeld. Als ik die website gebruik om heel Harry Potter in een ander lettertype over te zetten. Dan kan men niet bij de website klagen over dat de website de tekst van Harry Potter uitspugt. Die stond immers niet al in de website, die heb ik daarin gestopt. Maar als het output lettertype een beschermd lettertype is, dan kan men daar wel over klagen. Het lettertype stond immers al op de website, die heb ik niet geupload.

                  Als ik bij een LLM een gedicht geeft als prompt waar de laatste regel ontbreekt en vraagt om deze af te maken. Dan zou men bij het LLM alleen kunnen klagen over de laatste regel als dat precies is zoals in het beschermde origineel. De overige regels had ik (de gebruiker) immers geupload.

  3. Het is geen kopieerapparaat maar een “raad het volgende woord” systeem, en dat wordt dan gedwongen om te raden met een zeer beperkte keuzevrijheid. LLMs slaan geen bronteksten op.

    Het argument in de geciteerde bron zegt dat de parametergrootte van GPT-3.5 or 4 niet groot genoeg is om de trainingset zonder dataverlies op te slaan. Dat argument overtuigt niet. Ten eerste is een beetje dataverlies niet erg. Er is nog steeds inbreuk op het auteursrecht als je her en der een woord verandert. Ten tweede hoeft niet de volledige trainingset te worden gereproduceerd om inbreuk te maken op het auteursrecht. Een stukje uit een enkele tekst is al genoeg. Ten derde is het maar de vraag of de parameterruimte te klein is, ik kan daar zo gauw geen analyse over vinden. Dat de tekst veel groter is dan de parameterruimte zegt nog niets.

    1. Dat is heel simpel te testen.

      Als waar is wat je zegt, dus dat het artikel in de trainingsset op de een of andere manier is “opgeslagen” in GPT, en dat de reden is dat het artikel grotendeels teruggegeven wordt wanneer je het eerste stuk ervan als prompt geeft, dan zou dat alleen moeten werken met artikelen uit de trainingsset.

      En dus, wanneer je als prompt het eerste stuk van een soortgelijk artikel geeft, maar een wat niet in de trainingsset zat, zou er gewoon onzin uit moeten komen, met andere woorden het zou dus totaal geen gelijkenis moeten vertonen met dat artikel.

      Bij welk percentage gelijkenis zou je de grens trekken?

        1. Maar wel de enige manier om teksten met copyright eventueel te kunnen reproduceren. Dat is het gedeelte wat wettelijk niet mag, teksten en beeldmateriaal waar copyright opzit opnieuw publiceren. Er is voorzover ik weet niet veel wetgeving over of je wel of niet een tekst mag gebruiken om een LLM te trainen.

          1. Je kan hier ook aanvoeren dat er dusdanig weinig creativiteit aan de pas is gekomen, dat het heel makkelijk is om dezelfde inhoud op een identieke manier uit te drukken — en dan kun je je afvragen of er sprake is van een auteursrecht. Er zijn immers maar een beperkt aantal manieren waarop je beknopt kan zeggen dat er op locatie X op datum Y een schoorsteenbrand was bij bedrijf Z.

            En wetgeving die je verbied een tekst te gebruiken om te trainen. Dan kun je al je schoolboeken wel wegdoen: dat gaat rechtstreeks in tegen het hele bestaansrecht van de auteurswet.

  4. Alles wat ik in het Engels schrijf is een inbreuk op het auteursrecht dat AT&T in 1985 had op de Unix man pages. (Die waren toen nog geen open source, denk ik, en Linux en GNU bestonden nog niet.) Want ik voel vaak (niet altijd) aan wat correcte Engelse zinnen zijn, vooral wat de volgorde van woorden en zinsdelen betreft, doordat ik in die tijd veel in die dingen heb zitten lezen. De rest is inbreuk op © van HP 1982-1985: technische docu van HP3000 en OS daarvan.

    Net zo absurd als wat die krant nu claimt, volgens mij.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.