‘Reddit sluit licentiedeal met AI-gigant voor trainen AI-modellen’, mag dat?

red and white 8 logo
Photo by Brett Jordan on Unsplash

Reddit heeft een licentiedeal gesloten met een ‘groot AI-bedrijf’, ten behoeve van het trainen van AI-modellen. Dat meldde Tweakers vorige week. persagentschap Bloomberg. Het zou gaan om Google, waar Reddit in 2023 nog tegen dreigde de crawlers van te blokkeren. Diverse redditors vonden dit heel vervelend nieuws. Dus vandaar de vraag: mag Reddit dat doen?

Tweakers vult aan:

De licentiedeal zou betekenen dat de inhoud van de door gebruikers gegenereerde inhoud op Reddit zal worden gebruikt om de AI-modellen van een niet nader genoemd bedrijf te trainen, meldt Bloomberg op basis van ingewijden. Het zou gaan om een overeenkomst ter waarde van omgerekend ruim 55,5 miljoen euro op jaarbasis.
De honger naar kwalitatieve content om generatieve AI mee te trainen is enorm. Reddit is een van de grootste social news aggregatoren, waar mensen commentaar geven op nieuws en andere links die men met elkaar deelt (“read it”). De discussie is vaak van goede kwaliteit, en er is ook veel context om inhoud te duiden – reacties krijgen up- en downvotes en onderwerpen worden in zogeheten subreddits op onderwerp verdeeld. Dankbaar voer om AI mee te trainen.

De Reddit Terms of Use zijn afgelopen september aangepast. De site hanteert daarbij de gebruikelijke mooi klinkende constructie van “je blijft eigenaar maar wij krijgen een beperkte licentie”. Of nou ja, ‘beperkt’:

a worldwide, royalty-free, perpetual, irrevocable, non-exclusive, transferable, and sublicensable license to use, copy, modify, adapt, prepare derivative works of, distribute, store, perform, and display Your Content and any name, username, voice, or likeness provided in connection with Your Content in all media formats and channels now known or later developed anywhere in the world. This license includes the right for us to make Your Content available for syndication, broadcast, distribution, or publication by other companies, organizations, or individuals who partner with Reddit.
In gewoon Nederlands staat hier dat Reddit alles mag doen dat ze willen, inclusief als dataset verkopen aan andere bedrijven. En vanwege dat ‘irrevocable’ kun je die licentie dus ook niet meer snel intrekken. Je kunt natuurlijk je account opheffen, maar de licentie blijft gegeven.

In Europa kun je via de AVG eisen dat je persoonsgegevens niet langer verwerkt worden. Weghalen van je account of je naam bij publicaties is dus zeker mogelijk. Verdedigbaar is dat je posts ook persoonsgegevens kunnen zijn, afhankelijk van de inhoud. Over weghalen daarvan zegt de privacy policy:

Please note, however, that the posts, comments, and messages you submitted prior to deleting your account will still be visible to others unless you first delete the specific content. After you submit a request to delete your account, it may take up to 90 days for our purge script to complete deletion. We may also retain certain information about you for legitimate business purposes and/or if we believe doing so is in accordance with, or as required by, any applicable law.
Ik lees dat “we may retain certain information for legitimate purposes” dus als een recht om tóch je berichten te blijven gebruiken, zij het zonder je naam erbij. In de context van verhandelen voor het trainen van AI is dat een logische verwachting. Het lijkt me ook AVG-compliant, omdat een bericht zonder naam zeker niet perse een persoonsgegeven is.

Arnoud

12 reacties

  1. De meeste posts zijn heel bewust anoniem gehouden, namen en details weggelaten enzo. Dus dat het geen privacygevoelige data is zie ik wel.

    Hoe zit het met het auteursrecht, en de rechten om dat werk te verkopen en daar een AI mee te trainen?

    1. IANAL, maar juist rechten om werk te verkopen of te laten gebruiken door derden zijn rechten die je af kan staan, zoals een schrijver doet met een uitgever, en dat heb je gedaan door akkoord te gaan met de voorwaarden van Reddit. Als je daar dingen publiceert dan doe je dat natuurlijk ook met de bedoeling om, en in de wetenschap dat, anderen dat kunnen lezen, Reddit is juist een publiek forum. Ik zeg dit omdat het natuurlijk anders zou zijn als het een besloten forum zou zijn waar alleen een specifieke groep toegang toe heeft, zoals het forum van een vereniging of stichting. Als de beheerder daarvan opeens zegt dat al je informatie verkocht wordt om een AI te trainen dan heb je een andere situatie.

      Ik zeg dus niet dat ik het een goede stap vind van Reddit, maar wel dat ik denk dat je hier met een beroep op auteursrecht weinig aan kan doen.

      1. Los daarvan denk ik dat het trainen van een AI geen inbreuk op auteursrechten is. Dat is equivalent aan het maken van een index voor een zoekmachine (al is natuurlijk die index een stuk verfijnder).

        De licentie zal dus gaan over het openstellen van de data voor de crawlers van Google (en er zijn goede redenen om niet iedereen te laten crawlen: dat kost klauwen aan geld aan gebruikte bandbreedte.)

          1. Waarom is het bekijken van een website geen auteursrechtinbreuk? Mij lijkt dat het publiceren van een website impliceert dat je toestemming geeft aan anderen daar gebruik van de maken. Dus waarom zou die crawler dat niet mogen? Tenzij de website aangeeft dat niet te willen. En daar is een mooi mechanisme voor, dat door Google gerespecteerd wordt. Dus als een website (zeker een grote als Reddit) die crawler niet in zijn robots.txt zet is dat impliciet toestemming.

            1. Het bekijken in je browser van een website is geen inbreuk, omdat de eigenaar daar impliciet een licentie voor geeft. Dit is immers het doel van dingen op een website zetten, dat mensen daar via een browser naar gaan kijken. Maar let op: dat is een stuk beperkter dan “mensen mogen er gebruik van maken”.

              De vraag is dan ook of crawlen voor verwerking in een zoekindex te rekenen valt onder “het doel van dingen op een website zetten”. Had ik dat voor ogen? Misschien anno 2024 wel, in 1995 kon je daar een boom over opzetten.

              1. Veel websites betalen behoorlijke bedragen aan “SEO” (Search Engine Optimization), juist om gevonden te worden in zoekmachines. Daaruit concludeer ik dat het opzetten van die boom niet echt nodig is: ja, een website zet je ook op om gecrawled te worden (zodat mensen die kunnen vinden en lezen).

              2. Al in 1997 of zo (exact begin niet goed gedocumenteerd) was een doel dat ik had met dingen op mijn website zetten, wel degelijk heel erg dat zoekmachines ze op zouden pikken. Als ze me niet vonden, was mijn oordeel “slechte zoekmachine”. En zo voel ik dat nog steeds.

                Misschien is dit ijdelheid, en geen juridisch argument.

          2. Onder het Europees recht zou het misschien wel eens de andere kant op kunnen gaan, maar onder Amerikaans recht is het gewoon “fair use” De belangrijkste zaak in deze is misschien wel Authors Guild, Inc. v. Google, Inc., en de uitkomst daarvan was het scannen van boeken voor een zoekindex en het tonen van snippets fair use is.

            Als het in Amerika kan, dan zou Europa zich gigantisch in de voet schieten als zij het wel actief zouden verbieden (Dat zien we al met het databankenrecht, waarbij is gebleken dat juist door dat recht de markt voor databases in de VS minsten 7 keer groter is dan in de EU). Het is dus ook in het belang van de EU om hier niet te hard op te drukken. Als we straks via auteursrecht het laten leren van AI gaan verhinderen, dan zou dat onze positie in de wereldeconomie ongeveer op dezelfde manier ondermijnen alsof we 500 jaar geleden het buskruit hadden verboden om het werk van boogschutters te beschermen. Niet alleen oerdom, maar zelfs collectief suïcidaal.

            Auteursrecht is bedoeld om een marktfalen op te lossen, zodat creatieve werken überhaupt gemaakt kunnen worden, niet om sommige partijen een privaat onbegrensd belastingrecht op uitingen te geven. Dat eerste is publiek belang, het tweede niet. Dat het auteursrecht helaas vaak verworden is tot het laatste, en daarbij vaak zelfs zijn eigen legitieme doel in de weg zit, is het trieste resultaat van slechte wetgeving en wetgevers die iets te gemakkelijk het publieke belang verkwanselen (wat zowel in de EU als de VS een probleem is).

          3. Ik zou zeggen: Omdat je het werk zelf niet publiceert, verandert, verwerkt in een nieuw werk. Je doet er inhoudelijk niets mee – ja, je scant het even. maar dat is een technische scan, alleen om te zeggen “daar staat het”. Je maakt niets creatiefs op basis van het werk, en je verdient geen geld aan kopieën van het werk (waar volgens mij het auteursrecht over gaat).

        1. Nou… Als jij een nieuw werk maakt op basis van iets bestaands valt dat ook onder auteursrecht. Als jij bijvoorbeeld foto’s of filmbeelden bespreekt in een video; foto’s bij een artikel plaatst; een fotoboek van een fotograaf opknipt en ondersteboven op een deur plakt – dat valt onder auteursrecht (waarbij sommige dingen zijn toegestaan en je voor anderen toestemming nodig hebt).

          Als je werken opneemt in een database valt dat onder auteursrecht omdat je een duplicaat maakt. Dat is niet exact wat je doet in AI.

          Maar je kunt wel beargumenteren dat een model waar je een gesprek mee kan voeren en dat een sinterklaasgedicht kan schrijven in de stijl van een bepaalde auteur, creatief is.

          Bovendien heb je er menselijke oordelen aan toegevoegd: Die fabriek met klikkende mensen die bepalen wat wel en niet geschikt is voor het model? Menselijke inbreng.

          Is dat creatief? Een nieuw werk? Ik zou zeggen van wel.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.