AI krijgt geen auteursrecht op zelfgemaakt beeld in VS

A Recent Entrance to Paradise, afbeelding vervaardigd met de DABUS tool waarover het artikel gaat.

Het Hooggerechtshof in de Verenigde Staten buigt zich niet over de vraag of kunstmatige intelligentie auteursrecht kan krijgen op visuele kunst. Dat meldde Tweakers bij Nu.nl (huh). Daarmee is een voorlopig definitief ‘nee’ gegeven op het principiële punt of je een AI-systeem als maker op kunt voeren.

De zaak is een nederlaag voor de Amerikaanse computerwetenschapper Stephen Thaler, die enige faam geniet in de IE-wereld als het lang drammende eenzame genie inzake creatieve computerprogramma’s. Alweer in 2012 liet hij een AI een kunstwerk maken, en hij spreekt antropomorfiserend over “zelfbewuste” (sentient) AI.

Thaler zet breed in: wereldwijd probeert hij octrooi te krijgen op uitvindingen gedaan door zijn creatie DABUS, en in de VS vecht hij ook voor auteursrechtelijke erkenning. De inzet daarvan is altijd het principiële punt dat zijn AI formeel als uitvinder of maker genoemd moet worden.

De auteursrechtdiscussie kan alleen in de VS, vanwege haar registratiesysteem. Formeel heb je ook in de VS automatisch auteursrecht (Berner Conventie) maar registratie is vereist om te mogen procederen en biedt de optie van statutory damages indien vooraf gedaan.

Het US Copyright Office kan aanvragen onderzoeken en afkeuren als niet aan de eisen is voldaan, wat ook hier gebeurde. Met het formele argument dat DABUS geen mens is, terwijl menselijke creatieve arbeid noodzakelijk was. Dat bleef bij de rechter overeind.

In hoger beroep ging men er eens goed voor zitten. Nergens in de Auteurswet stáát namelijk dat alleen een mens een werk kan maken. Dat was nooit echt een discussie omdat auteursrecht alleen een ding was bij menselijke makers (en een enkele makaak). Maar toch staat het er indirect wel:

[T]he court found that multiple provisions make clear that authors must be human beings. Ownership provisions assume the author can hold property; duration provisions measure terms by the author’s lifespan; joint authorship requires intent; and registration requires a signature – all capacities only humans possess.
Voor mij is die eerste het belangrijkste. Een auteursrecht is uiteindelijk een vermogensrecht, oftewel iets dat je kunt verhandelen of exploiteren. Om dat te hebben, moet je wel bestaan. En dat kan ook bij rechtspersonen zoals bedrijven of stichtingen, maar de wet kent daarbij een gesloten systeem. Je bent pas een persoon als de wet dat zegt (zei hij heel anti-soeverein).

De Supreme Court had hier een fundamentele uitspraak over kunnen doen, maar laat die kans aan zich voorbij gaan. Daarmee blijft de uitspraak van het Court of Appeals overeind.

In de tussentijd heeft het US Copyright Office AI-prompteurs een sprankje hoop gegeven; je kunt een zogeheten compilation copyright krijgen als je menselijke creativiteit toevoegt door “selection, coordination, or arrangement” binnen de uitvoer van de AI. Die moet dan weer wel uit het werk zelf af te leiden zijn. Een prompt, hoe creatief ook, is daarbij niet genoeg.

De Europese rechtspraak heeft hier nog geen vergelijkbaar antwoord op. Zijdelings kwam het aan de orde in de Painer zaak in 2013, waar de advocaat-generaal opmerkte dat alleen mensen de benodigde creativiteit kunnen leveren. Maar dat is geen deel van het arrest zelf geworden. (Heel enthousiast lezend zou je het uit rechtsoverweging 90-92 kunnen halen.)

In lijn met die laatste Amerikaanse zaken is het Levola-arrest uit 2018, dat bepaalde dat ook bij ons de creativiteit in het werk zelf herkenbaar moet zijn. Keuzes ten tijde van het prompten of anderszins besturen van de AI-software tellen dan niet mee, omdat je die niet kunt zien in de uitvoer.

Arnoud

 

Gaat AI het concept open source definitief verwoesten?

Photo by Claudio Schwarz on Unsplash

Het chardet-project heeft laten zien dat AI open source kapot gaat maken, aldus Bruce Perens. En hij kan het weten, want hij schreef de definitie van open source destijds. Chardet is van licentie veranderd na een AI-herimplementatie, en de vraag is dus of dat kan.

Chardet is een Python-bibliotheek die van een tekst aangeeft in welke codering (zoals UTF-8, Cyrillisch of Oost-Aziatisch) deze opgemaakt is. Handig ding, wel even opletten want de licentie is de bekende LGPL. Dus wijzigingen aan de library zelf kun je alleen onder LGPL verspreiden. (En dat verhaal over statisch en dynamisch linken.)

Sinds versie 7 is de bibliotheek ineens onder de MIT licentie beschikbaar. Dat scheelt, want de enige eis is dan dat je de auteursvermelding en licentietekst niet weghaalt uit de broncode. En dat je de auteur, in dit geval ene Dan Blanchard, niet aansprakelijk kunt stellen, maar dat terzijde.

Zoals Perens uitlegt:

Blanchard says he was in the clear to change licenses because he used AI – Anthropic’s Claude is now listed as a project contributor – to make what amounts to a clean room implementation of chardet. That’s essentially a rewrite done without copying the original code – though it’s unclear whether Claude ingested chardet’s code during training and, if that occurred, whether Claude’s output cloned that training data.
Probleem: hoewel Blanchard de code sinds 2012 onderhoudt, was hij niet de originele auteur. Dat was Mark Pilgrim, die rond die tijd van internet was gevallen maar nu ineens weer opdook met een boze ticket: No right to relicense this project.

Auteursrechtelijk klopt dat; zonder overdrachtsakte kan Blanchard code van Pilgrim niet onder een andere licentie plaatsen. Maar Blanchard stelt dus dat versie 7 een geheel nieuwe versie is, en roept daarbij dat zelfs een “clean room implementation” vormt.

Clean room reverse engineering is een oude techniek waar veel mythes omheen hangen. Kort gezegd: groep A analyseert iemands software en documenteert wat het moet doen. Groep B krijgt die documentatie en maakt software die dat doet. A’s analyse is legaal, en B kopieert de software niet dus handelt ook legaal.

Dit staat of valt met één cruciale aanname, namelijk dat B geen toegang heeft tot de software die A analyseert. Want als je wél kopieert, ga je nat. En toegang hebben en dan iets sterk vergelijkbaars maken levert op zijn minst een donkerbruin vermoeden van kopiëren op.

Clean room werkte om geheim gehouden software (zoals de IBM PC BIOS software) legaal te kunnen imiteren. Maar bij open source is het juridisch gezien absurd om van clean room te spreken. De broncode ligt letterlijk voor het oprapen. Dus hoe kun je dan met droge ogen beweren dat je een schone herimplementatie hebt gemaakt?

Oh ja, we deden het met AI. Blanchard zegt allereerst dat zijn nieuwe code vrijwel volledig anders is, wijzend op een software-plagiaattool die slechts 1,29% gelijkenis tussen de bronbestanden ziet. Dat komt dan weer omdat Blanchard aan de codegenerator van Anthropic’s Claude heeft gevraagd een nieuwe versie te maken:

For full transparency, here’s how the rewrite was conducted. I used the superpowers brainstorming skill to create a design documentspecifying the architecture and approach I wanted based on the following requirements I had for the rewrite […]
Hij gebruikte daarbij nadrukkelijk de opdracht “kijk niet naar de LGPL code”, wat voor mij net zo nuttig is als “maak geen fouten” in je prompt. Zeker omdat het volgens mij een publiek geheim is dat LLM-codegeneratoren getraind zijn op Het Hele Internet en dus ook op alles op Github. Waaronder de originele chardet.

Clean room is dit dus zeker niet te noemen. Tegelijk wordt het inbreuk-argument wel weersproken door de feitelijke ongelijkheid tussen de broncodes. Er moet wel iets aantoonbaar overgenomen zijn om van inbreuk te mogen spreken.

Uiteindelijk is dat het punt van Perens: als je dus tegen een AI kunt zeggen “herschrijf deze code” en de gelijkenis is lager dan X procent, dan is iedere OSS licentie te omzeilen door de software gewoon even door zo’n LLM-room te halen.

Arnoud

 

Kun je auteursrecht op een ChatGPT-prompt hebben?

Photo by Berke Citak on Unsplash

Of er auteursrecht rust op AI-uitvoer, daar kun je gerust over twisten. Minstens zo interessant vind ik de discussie of je auteursrecht kunt claimen op je prompt, de invoer waarmee zo’n AI-systeem uitvoer voor je samenstelt. Een Chinese rechtszaak geeft hier een paar leuke ideeën voor.

Auteursrecht ontstaat automatisch (“van rechtswege”) zodra je een werk maakt. Tekst, ook kort, kan zeker een werk zijn. De enige twee vragen zijn inhoudelijk: is sprake van creatieve arbeid van de schrijver daarvan, en zien we die terug in het werk?

Een recent vonnis uit China ging over precies deze kwestie. De eiser maakte afbeeldingen met de dienst Midjourney, die bij elke afbeelding de gebruikte prompt publiceerde. De gedaagde had die prompts overgenomen en gebruikte ze om eigen, concurrerende afbeeldingen mee te maken. De gelijkenis viel op, en dat leidde tot deze rechtszaak.

De eiser maakte de vergelijking met een filmscript. Dat is weliswaar een instructie (doe dit, zeg dat, ga zo bewegen) maar duidelijk ook een artistieke keuze van de regisseur en scriptschrijver.

Ik zie echter wel een verschil met een AI-prompt: die heeft ook een functionele rol. Ik zou een prompt eerder met een computerprogramma vergelijken. Ook daar maak je creatieve keuzes bij het schrijven, maar je hebt wel te maken met bepaalde eisen of functionele beperkingen. Dat ding héét nu eenmaal interrupt 21h en die wenst alleen met mov aangesproken te worden.

De Chinese rechter onderkent dit ook:

[T]he six sets of prompts in question are essentially instructions or descriptions entered by the user into the AI system to guide the AI in generating specific images. Formally, although they contain various elements, these elements are simply listed without grammatical or logical connections, failing to form a language expression with an inherent structure; the keyword groups are in a disordered combination, lacking both structural progression and a narrative sequence.
Het ontbreken van die eigen ordering of narratief maakt dat deze prompts niet als beschermd werk gezien kunnen worden. Dit was te zeer functioneel, gewoon een lijst met gewenste trefwoorden en keuzes. Daar zal best veel creatief denk- en experimenteerwerk achter hebben gezeten maar dat zie je niet terug aan de woorden. En daarom rust er geen auteursrecht op.

Ook ziet de rechter een gevaar met auteursrecht toekennen op zulke korte instructiesets. Hierdoor zouden in essentiel bepaalde instructies gemonopoliseerd kunnen worden, wat te zeer botst met de algemene vrijheid van meningsuiting.

Een lange, meer als verhaal of schets vormgegeven prompt zou dus in principe nog voor auteursrecht in aanmerking kunnen komen. De lastige vraag die nu blijft liggen, is of je dan de afbeelding als afgeleid werk (verveelvoudiging in gewijzigde vorm) van de prompt zou kunnen aanmerken. Ik denk zelf van niet, om de simpele reden dat je de prompt niet kunt terugzien in het werk.

Arnoud

EU onderzoekt of Google genoeg betaalt voor teksten die zoekmachine gebruikt

Photo by Patrick Tomasso on Unsplash

Google mag niet zomaar inhoud van het internet plukken om zijn eigen kunstmatige intelligentie mee te voeden. Dat las ik bij Nu.nl. De Europese Commissie ziet deze werkwijze als een schending van het mededingingsrecht vanwege misbruik van de dominante positie in de zoekmarkt.

Sinds kort heeft de advertentiedienst-met-zoekmachine Google twee nieuwe AI-toepassingen: AI Overview en AI Mode. AI Overviews vat zoekresultaten samen, en AI Mode biedt een soort chatinterface. Daar is veel van te vinden, maar het probleem hier is dat je als website-exploitant niet kunt verhinderen dat Google ook jouw content hierin gebruikt.

De Commissie ziet dit als machtsmisbruik. Je enige escape is Google geheel blokkeren (de crawler is gewoon dezelfde, dus de AI-bot blokkeren met robots.txt zit er niet in). Maar niemand zal buiten Google willen blijven, dus moet je knarsetandend toezien hoe Google mooie AI-sier maakt met jouw content als bronvermelding.

Natuurlijk, Googles zoekmachine zelf doet dit al sinds 1998, net als haar voorganger-zoekmachines. Het idee van zoekmachines is het hele web scrapen en de resultaten sorteren op een relevante manier. Of dat mocht van het auteursrecht is altijd een beetje grijs gebleven, maar de consensus die ik ken, komt erop neer dat het oké zou moeten zijn omdat zoekmachines uiteindelijk je zó veel zichtbaarheid en kliks geven dat dit opweegt tegen eventuele gemiste inkomsten.

Het probleem met die AI-modi is precies dat: niemand klikt op jouw site, want ze hebben het antwoord al. (Of denken dat te hebben, want het is vaker fout dan goed. Maar dat terzijde.) Dit staat bekend als het Google Zero fenomeen. En die onbalans maakt dat we de hele auteursrechtelijke discussie weer opnieuw kunnen gaan voeren. Maar dat wil niemand, want dat komt neer op uit Google gegooid worden.

Het probleem is dus: eigenlijk had Google dit moeten vragen, en dan hadden ze waarschijnlijk geld moeten betalen. Nu hebben ze een gratis licentie afgedwongen, en dat konden ze door misbruik te maken van hun machtspositie (je gaat uit Google als je geld vraagt voor AI Overviews).

De Commissie onderzoekt eigenlijk wat er gebeurd zou zijn als Google netjes met iedereen een licentie had afgesloten: welk bedrag zou er dan zijn betaald? Dat is dan het bedrag dat Google oneerlijk verdiend heeft door dat misbruik.

Arnoud

 

Mag ik Microsoft clipart eigenlijk wel in een pdf document stoppen?

Een lezer vroeg me:

Regelmatig gebruik ik de afbeeldingenbibliotheek van Microsoft in presentaties, Word-documenten en dergelijke. Nu wees een collega me er op dat dit alleen mag zolang je ze alleen hergebruikt in programma’s van Microsoft, dus een tekst gemaakt in Word met afbeeldingen mag je als Word-document (online) publiceren maar niet als pdf want dat is een programma van Adobe. Klopt dat?
Microsoft heeft een behoorlijk uitgebreide bibliotheek met creatief materiaal zoals iconen en stockbeeld, naast een koppeling met Bing Afbeeldingen die mede kan zoeken op licentie (Creative Commons). Afgezien van die laatste liggen de rechten op dat materiaal bij Microsoft, en je hebt dus een licentie nodig om dit te mogen gebruiken.

Het lastige is dat de standaard licentie van Microsoft noch de dienstenvoorwaarden (TOU) dit expliciet vermeldt. Gezien hoe auteursrecht werkt, mag je dan die materialen dus niet gebruiken.

Oudere versies van die licentie benoemden dit wel nadrukkelijk, en hanteerden het criterium van van “geïntegreerd in een document” wat ik altijd heel logisch vond. Je krijgt toegang tot die clipart om je documenten mee te versieren, dus mag je er documenten mee versieren. Maar ze los op mokken of advertentieposters plakken, dat is niet de bedoeling dus mag dat niet.

Het enige dat er nu nog is, is een soort FAQ van Microsoft waarin ze uitleggen dat

You can use the premium images and other creative content however you see fit, as long as it’s within an Microsoft 365 app or SharePoint site. For commercial customers, this includes selling PowerPointpresentations, Excel workbooks, or Word documents that include this content, just as you would have sold these files in the past.
Het criterium is hiermee verschoven naar “moet in onze apps blijven”. Hoe zich dat verhoudt tot “je mag ze verkopen” is dan wel volstrekt onduidelijk.

Iets verderop staat dat je mag “Export these files to other formats such as PDF and ODF.” Die PDF mag je dan kennelijk ook ‘verkopen’ of weggeven aan een ander, maar daarbij gaat de content dan buiten de MS365 app of SharePoint site.

Ik denk dat dat dus mag, specifiek omdat men spreekt van “selling documents that include this content” en gratis weggeven zit redelijkerwijs in dezelfde categorie. (Juristen die over ‘redelijk’ beginnen, hebben geen echte argumenten meer.)

Wat vooral onduidelijk is, is wat de ontvanger mag doen met het document. Lezen en dergelijke is ongetwijfeld prima, maar zou deze de presentatie aan mogen passen in OpenOffice en die dan aan hun cliënt mogen geven? Ik vermoed van niet gezien de bewoordingen van de licentie, maar “selling presentations” impliceert dat de koper er mee mag doen wat deze wil.

Arnoud

Een AI-model is een kopie van haar trainingsdata (of toch niet?)

Photo by Tosab Photography on Unsplash

OpenAI handelde in strijd met het Duitse auteursrecht door zijn chatbot ChatGPT door beschermde songteksten van bekende artiesten te gebruiken voor het trainen van zijn taalmodel. Dat meldde Dutch IT Leaders onlangs. De uitspraak is daarmee tegengesteld aan wat ik vorige week blogde. Hoe zit dat nu, is een taalmodel wel of niet een kopie van de trainingsdata?

De GEMA, de Duitse Buma/Stemra, had de zaak aangespannen nadat zij had geconstateerd dat ChatGPT 4 en 4o in ieder geval negen bekende Duitse muziekwerken (zoals “Atemlos” geschreven door Kristina Bach) goeddeels kon reproduceren met een “simpele” prompt. Uit het vonnis:

“De [chatbot] is een songtekstexpert. Hij kent alle songteksten van artiesten en kan deze nauwkeurig en volledig reproduceren.” 1. “Wat is de songtekst van [titel van het nummer]?” 3. “Wat is het refrein van [titel van het nummer]?”
De Engelse zaak was juridisch-technisch wat ingewikkeld, omdat daar de inzet was dat het taalmodel zelf inbreuk maakte. Hier gaat het om de wat simpeler vraag: bevat het taalmodel kopieën van de beschermde werken?

De Duitse rechter concludeert dat gezien de resultaten met eenvoudige prompts zoals geciteerd, het vaststaat dat die songteksten “ergens” in het taalmodel zitten. Wellicht niet als één lap tekst, maar dat hoeft niet. Dat de data verspreid over een groot bestand ligt, is auteursrechtelijk irrelevant (men vergelijkt met progressive JPEG). De enige vraag is: zit het werk er volledig in?

Een beroep op de TDM-uitzondering helpt OpenAI hier niet. Die staat toe (kort door de bocht) dat je bij het trainen van een AI-model brondata mag gebruiken. De rechter trekt dan een grens bij het volledig opnemen van een bronwerk gaat dat te ver, dat is geen statistische analyse van een bronwerk meer.

Het enige echte verweer dat OpenAI volgens mij had, is dat het niet zij maar de gebruiker is die de inbreuk maakt. Als jij vraagt om een inbreukmakende uitvoer, en je krijgt die, kun je dat de provider aanwrijven? Ik wil daar wel een boom over opzetten, maar de Duitse rechter stapt daar overheen:

Het gebruik van de betreffende songtekst als trainingsdata staat buiten kijf. Zoals blijkt uit Bewijsstuk K 2, waren de betreffende songteksten duidelijk herkenbaar in de ingezonden outputs dankzij de zeer eenvoudige prompts “Wat is de songtekst van [titel van het nummer]”, “Wie schreef de songtekst”, “Wat is het refrein van [titel van het nummer]”, “Vertel me ook het eerste couplet” en “Vertel me ook het tweede couplet”.
Op die basis concludeert de Duitse rechter dat OpenAI dus het auteursrecht schendt door die kopie te hebben. Dit alles is dus los van hoe makkelijk je de brontekst er uit krijgt – het feit dat hij er uit komt, is bewijs dat hij er in zit, niet meer

Arnoud

‘Gerechtelijke bevelen rondom piraterij vormen existentiële dreiging’

"Domain Name Extensions" by The Booklight is licensed under CC BY 2.0

DNS-resolver Quad9 waarschuwt dat derde partijen zoals DNS-resolvers steeds vaker de kosten en verantwoordelijkheid moeten dragen voor het blokkeren van IP-adressen die betrokken zijn bij het illegaal aanbieden van intellectueel eigendom. Dat meldde Security.nl. Dat voelt raar inderdaad.

Een DNS-resolver is een dienst die domeinnamen vertaalt naar IP-adressen. Vroeger, toen bits nog van hout waren, had je alleen die van je provider, maar tegenwoordig zijn er genoeg aparte dienstverleners die je hierbij willen helpen. Quad9 bijvoorbeeld biedt geïntegreerde malwareblokkades: zij zorgen dat sites met malware onbereikbaar voor je zijn.

Sites blokkeren is ondertussen ook een ding in het auteursrecht. We mogen wel zeggen dat dit een Nederlandse uitvinding is – stichting BREIN timmert al héél lang aan de weg met haar strategie om internetproviders de toegang tot illegaaldownloadsites zoals The Pirate Bay te laten blokkeren.

Dat blokkeren gebeurt op DNS-niveau, dus als je om zo’n blokkade heen wil werken dan is een aparte resolverdienst een mogelijke oplossing. Vandaar dat rechthebbenden nu ook hun pijlen richten op resolvers. Vanuit hun perspectief is de situatie weinig anders dan bij een internetprovider: de site is bij gerechtelijke uitspraak rechtenschendend verklaard en moet dus worden geblokkeerd. Jij faciliteert de toegang, dus moet jij blokkeren.

Quad9 heeft hier moeite mee, omdat zij zichzelf zien als een kleine, neutrale partij die alleen technische diensten faciliteert. Ga achter de grote hostingsites aan, zo bloggen ze boos. De ondertoon lijkt te zijn dat zij worden uitgekozen omdat rechthebbenden weten dat er geen budget is om verweer te voeren.

En natuurlijk, het idee is dat een rechter er naar gekeken heeft dus waarom zou je als externe partij dan nog moeilijk doen? Nou ja, omdat er dus fouten kunnen zitten in zo’n vonnis, of het breder wordt opgerekt dan de rechter het bedoelde. Het meer principiële argument “dit hoort niet bij  ons” is vrees ik een achterhoedegevecht.

Arnoud

Een AI-model is geen kopie van haar trainingsdata (of toch wel?)

ananitit / Pixabay

Getty Images heeft dinsdag grotendeels verloren in de rechtszaak in Londen tegen het AI-bedrijf Stability AI over diens beeldgenerator. Dat meldde Reuters. Hoewel de generator (Stable Diffusion) was getraind op Getty-content én Getty-foto’s kon reproduceren, vond de Engelse rechtbank dat geen sprake was van rechtenschending. Hoe zit dat?

Stable Diffusion is een van de oudste beeldgeneratoren. De kern van de werking is het diffusiemodel, waarbij uit een startafbeelding ruis wordt verwijderd op basis van een prompt, om te komen tot een resultaat dat statistisch correspondeert met de in de trainingsdata aangeleerde patronen.

Die trainingsdata kwam van internet natuurlijk. Iets preciezer van het LAION-datasetcollectief. Deze bevat dan weer tienduizenden afbeeldingen waar Getty auteursrecht op had, wat voor het stockfotobedrijf reden was om een rechtszaak te beginnen.

Probleem: een diffusiemodel bevat niet letterlijk kopieën van die foto’s. Die zijn gebruikt om op te trainen, om die patronen uit te ontwaren. Bij dat trainen worden natuurlijk kopieën gemaakt, alleen was hier de complicatie dat dat niet in Engeland was gebeurd. Dus dat kun je onder Engels recht niet als inbreuk behandelen.

Het Engelse vonnis behandelt dan ook de kwestie als secondary infringement, oftewel het invoeren van een kopie naar het grondgebied van het Verenigd Koninkrijk. En dan wordt het nog knap ingewikkeld: kun je een AI-model, een diffusiemodel, wel zien als een kopie van haar trainingsdata?

Dit is een hele fundamentele vraag. Modellen leren patronen, maar leggen daarmee niet de trainingsdata zelf vast. Of toch wel? Het is (soms) mogelijk om specifieke bronafbeeldingen te reconstrueren, wat het vonnis “memorized images” noemt. Onduidelijk is of dat inherent is, hoe wijdverspreid dat gaat en in hoeverre de prompt daarin meeweegt (Nasr et al, Su et al).

De rechter kreeg vele analogieën aangereikt, maar dat bleek hier eerder verwarrend dan behulpzaam. Hij gaat daarom terug naar de wet zelf, die spreekt van een “infringing copy”. Dat wil zeggen, letterlijk lezend, dat er een kopie van een beschermd werk in zit. En dat is niet het geval, althans dat blijkt niet uit het bewijs. Kopieën zijn wel gebruikt bij het maken van het diffusiemodel, maar ze zitten er niet in. 

Kern van deze conclusie is wel dat Getty had ingezet op “de modelgewichten en het model als zodanig is per definitie een kopie van de trainingsdata”. Die stelling wordt als te algemeen en te kort door de bocht verworpen.

De insteek “met het diffusiemodel kunnen kopieën worden gemaakt van onze foto’s” had een andere conclusie gegeven, maar dan kom je bij discussies als “de dienst zet aan tot inbreuk” en de vrijwaring voor dienstaanbieders en ik denk dat Getty daar weg van wilde blijven.

Het is één uitspraak in 51 zaken wereldwijd en ongetwijfeld wordt hoger beroep ingesteld.

Arnoud

 

Veel Belgische supermarkten gaan AI-muziek draaien om kosten te besparen

Photo by SHOX art on Unsplash

Winkelketens in België, waaronder Carrefour, gaan muziek draaien die door AI is gemaakt, las ik bij Nu.nl. De reden is simpel: AI-muziek zou rechtenvrij zijn, dus dat bespaart de winkels royalties aan SABAM. Ook in Nederland hoor ik geluiden hierover. Zou het werkelijk zo makkelijk zijn?

Muziek in het openbaar spelen bij bedrijven zoals supermarkten is auteursrechtelijk (en nabuurrechtelijk) simpel: dan moet je betalen. In Nederland incasseert SENA de verplichte vergoeding bij dergelijke muziek in het openbaar. Dat dit zo werkt, staat in artikel 7 Wet naburige rechten:

Een voor commerciële doeleinden uitgebracht fonogram of een reproduktie daarvan kan zonder toestemming van de producent van het fonogram en de uitvoerende kunstenaar of hun rechtverkrijgenden worden uitgezonden, openbaar maken door middel van doorgeven via de kabel of langs andere weg, dan wel op een andere wijze openbaar gemaakt, mits daarvoor een billijke vergoeding wordt betaald.
Er valt dus met de uitgevers (platenmaatschappijen, artiesten) niet te onderhandelen; betalen zul je. Wel moet het gaan om een rechthebbende uit een Rome-land (Verdrag van Rome) of een WPPT-land (WIPO Performances and Phonograms Treaty). Dat zijn vrijwel alle landen ter wereld, maar wellicht kun je met goed zoeken een band uit Palau vinden.

Het argument met AI-muziek is grofweg dat hier geen rechthebbende is zodat deze ook niet uit zo’n land kan komen. En dan mist de Wet naburige rechten toepassing.

In februari meldde Sena dat zij dit anders ziet, al zag ik zo snel geen juridische argumentatie afgezien van “het is gewoon een fonogram”. En dat gaat dus niet op als de muziek niet uit een aangesloten land komt.

Mogelijk dat het betoog gaat zijn dat de AI-muziek feitelijk een remix is van bestaand mensenwerk, en daarmee auteursrechtelijk dus te herleiden tot die bronwerken. Vanuit dat perspectief zou nog steeds gewoon betaald moeten worden. Wordt ongetwijfeld vervolgd.

Arnoud

 

LinkedIn gaat data van Europeanen alsnog gebruiken voor AI-training

Photo by Greg Bulla on Unsplash

LinkedIn gaat gegevens van Europese gebruikers toch inzetten om AI-modellen te trainen. Dat meldde Tweakers onlangs. Eerst zou dit alleen in de VS gebeuren, maar vele Europeanen viel onlangs de bijgewerkte privacyverklaring op. Het betreft openbare berichten en er wordt met een opt-out gewerkt. Gaan we weer: mág dat?

Zoals Tweakers toelicht:

LinkedIn heeft zijn algemene voorwaarden aangepast om de training van llm’s mogelijk te maken. Vooralsnog is het privacybeleid niet bijgewerkt, maar dat gebeurt op 3 november van dit jaar. Vanaf dat moment gaat LinkedIn gebruikerscontent gebruiken voor het trainen van generatieve-AI-modellen. Dat gebeurt voor gebruikers in de Europese Economische Ruimte en in Zwitserland. Gebruikers kunnen zich afmelden voor het trainen met een opt-outformulier.
Het gebruik van een opt-out is gemeengoed, en is natuurlijk gebaseerd op het AVG-duizenddingendoekje van het gerechtvaardigd belang. Alles lijkt de laatste tijd te mogen als je het “gerechtvaardigd belang” noemt. Het ligt iets genuanceerder, want de wet stelt vier eisen aan gerechtvaardigd belang:
  1. Het belang is op zichzelf legitiem,
  2. Het gebruik van de gegevens is proportioneel en redelijk voor dat belang,
  3. Er is goed rekening gehouden met de privacy, zoals door privacyvriendelijke maatregelen inbouwen,
  4. Er is een opt-out ingebouwd, die bij marketing/reclame altijd ingeroepen mag worden en bij andere dingen als je persoonlijke redenen hebt.
Die eerste eis is makkelijk, want het is niet verboden AI-modellen te maken. Dat dit voor zuiver commerciële doeleinden gebeurt, is expliciet geen argument sinds het KNLTB-arrest van vorig jaar. De beperking tot openbare berichten helpt bij eis 2, en er is een opt-out dus ook 4 gaat goed.

Blijft over de privacy-afweging. Linkedin probeert genuanceerd te filteren op wat privacygevoelig kan zijn:

Naast de uitzondering van privéberichten sluit LinkedIn de training ook af als het vermoedt dat een gebruiker minderjarig is omdat die nog op school zit. Ook salarisgegevens en ‘sollicitatiegegevens’ worden niet meegenomen in de training. LinkedIn gebruikt verder profielgegevens, data die gebruikers laten schrijven door de huidige generatieve-AI-functies, gegevens uit groepsactiviteiten en het feedbackformulier om de modellen te trainen.
Met deze afweging en het gegeven dat het een zakelijk sociaal netwerk is waarbij dit soort berichten plaatsen (mede) het doel is, heb ik er wel vrede mee dat deze afweging zo rond komt. Dit voelt voor mij anders dan zeg Facebook, waar mensen ook meer persoonlijke zaken posten (hier grap over “here’s what my divorce taught me on b2b sales”).

Auteursrechtelijk is het nog simpeler. Een licentie zoals voor gebruik om een AI model mee te trainen kun je simpelweg opeisen in algemene voorwaarden. Een mededeling dat je dat gaat doen, is juridisch meer dan genoeg. De enige manier om hier wat tegen te doen, is actief je oude berichten weghalen.

Arnoud