Mag ik een AI-artiest online zetten of moet ik bang zijn voor het auteursrecht?

| AE 13568 | Intellectuele rechten, Ondernemingsvrijheid | 1 reactie

Een lezer vroeg me:

Gisteren heb ik zitten spelen met zo’n machine-learning ai die plaatjes maakt van een tekstje (“prompt”). Dat tekstje en een aantal getals-parameters kun je zelf invullen en tweaken. Het resultaat is een webpagina vol met schilderijen waarop acteur Brad Pitt te zien is alsof hij geschilderd is door Monet, van Gogh, Degas, enzovoort. Als ik deze AI online zou zetten, kan ik dan problemen verwachten met portretrechten van Brad Pitt dan wel auteursrechten van de bronwerken?
Allereerst het portretrecht, daar verwacht ik de minste problemen. Het gaat om een portret niet in opdracht, waarbij de vraag is of de afgebeelde persoon een redelijk belang tegen publicatie heeft. Wat kan meneer Pitt aanvoeren? Hij is een bekend persoon en je gebruikt hem vanwege de herkenbaarheid, dat is nu eenmaal inherent aan bekend zijn vanwege je uiterlijk (met alle respect voor zijn inhoudelijke kwaliteiten, overigens).

Auteursrecht is lastiger, want de AI van de vraagsteller transformeert niet één foto maar tien miljoen. Dat lijkt de auteurswet te buiten te gaan, alsof je zou zeggen dat je mijn boek overneemt omdat je daaruit plus nog tien miljoen boeken haalt hoe juridische tekst gaat. Ik meen dat dat niet opgaat.

De gegenereerde werken zijn in de stijl van bekende schilders. Dat kan, een stijl van werken is niet beschermd. Ook niet als de bedenker van die stijl auteursrechtelijk nog leeft (70 jaar na overlijden).

Pas als er concrete fragmenten uit één bronwerk in het gegenereerde werk komen, dan loop je tegen auteursrecht aan. Denk aan het schilderij van het meisje met de parel, waar je AI eigen variaties op maakt. Dat zou inbreuk zijn als het een modern werk was.

Arnoud

Mijn foto is een datapunt in iemands AI, kan ik een schadevergoeding krijgen?

| AE 13560 | Intellectuele rechten, Ondernemingsvrijheid | 11 reacties

Simon / Pixabay

Via de website “Have I been trained” kun je achterhalen of jouw foto gebruikt is om een AI te trainen, las ik bij Ars Technica. Of nou ja, iets preciezer: of je foto in een van de enorme datasets zit waarmee tegenwoordig alle beetje fatsoenlijke AI’s worden getraind. Want die datasets zijn meestal zonder het ook maar iemand te vragen opgebouwd, dus een beetje pixeljager zou daar wel geld moeten zien. Maar valt er wel wat te eisen?

Wie een machine learning systeem wil trainen, heeft data nodig. Dat geldt voor iedere applicatie, maar voor afbeeldingen is het helemaal een complexe eis: waar haal je die enorme hoeveelheid plaatjes vandaan die nodig is om een adequate brede dekkingsgraad van je AI-toepassing te krijgen? Nou ja, dat pluk je gewoon van internet want als je het maar massaal genoeg verzamelt is het geen auteursrechtinbreuk meer maar innovatie (cf. Google Images).

De state of the art dataset tegenwoordig is LAION-5B,met 5,85 miljard afbeeldingen verreweg de grootste. Bijeengebracht voor researchdoeleinden en experimenteren met zulke enorme sets, aldus de website. “The images are under their copyright”, staat er dan ook. En dan de juridische truc, of nou ja truc, waarmee dat kan: elk item uit de dataset bevat simpelweg alleen de bron-URL van de afbeelding, waarmee de dataset zelf geen inbreuk is.

De dataset is voor haar doel buitengewoon nuttig: bij elk plaatje staan labels zoals wie of wat er te zien is. Met dergelijke metadata kun je systemen trainen die daarmee nieuwe afbeeldingen kunnen maken op een zelfbedachte suggestie (“copyright symbol racing against computer“). Die leren dan op basis van die metadata wat er zoal mogelijk is bij een dergelijke tekst.

Als je nu een dataset maakt door al die afbeeldingen te downloaden en daarmee een AI traint, heb je dan auteursrechten geschonden? De eerste stap – het downloaden – is voor onderzoekers of bedrijven problematisch, omdat in Europa in ieder geval zoiets buiten de thuiskopie-regeling valt. In de VS is dit mogelijk fair use, het staat immers legaal online en het downloaden van een afbeelding is dan fair. 

De volgende stap is het trainen van een machine learning model, waarbij dus allerlei features van die afbeeldingen worden geëxtraheerd en in combinatie met die metadata tot een algoritme wordt omgezet waarmee nieuwe afbeeldingen worden gemaakt. In principe zijn die echt nieuw, maar er zitten soms wel herleidbare stukjes in, zoals in deze foto met herkenbaar Getty watermerk. (Ik weet niet of dit is omdat het stukje met het watermerk paste bij de prompt of omdat het systeem heeft geleerd dat goede foto’s vaak een Getty watermerk dragen, en daaruit concludeerde dat dit erbij hoort.)

Het belangrijkste is, je kunt aan een AI eigenlijk nooit zien of jouw foto’s er specifiek in zitten. Deze tool maakt voor het eerst soort van dat wél mogelijk, althans als de AI-exploitant dus meldt dat hij met LAION-5B werkt (wat op zich een normale melding is, want het is nodig voor benchmarking). En dan kun je dus een claim doen, want gegarandeerd dat er dan bij dat bedrijf ergens een zipfile rondzwerft met een kopie van jouw foto(‘s).

Alleen: wat is je schade? Dit probleem is fundamenteel bij het auteursrecht online, zeker voor mensen die hun werk gratis op internet zetten. Want dan kun je niet eens de gemiste licentiekosten als schade opvoeren. En hier speelt dan ook nog eens dat we niet weten wat je auteursrechtelijk precies doet als je een foto omzet naar een berg datapunten waarmee je een image generator maakt.

De makers van deze tool hebben een iets andere insteek: zij willen dat de AI community vrijwillig overstapt naar een model waarbij toestemming de norm is, juist om de kleine creatieveling te beschermen. En dat is een heel nobel streven, met natuurlijk de kanttekening dat er weinig prikkel is om bij dit soort bedrijven hier op over te stappen.

Arnoud

 

Mag je persoonsgegevens gebruiken om een AI mee te trainen?

| AE 13135 | Ondernemingsvrijheid | 17 reacties

ahmedgad / Pixabay

Een lezer vroeg me:

Wij willen in onze organisatie gaan experimenteren met AI oftewel machine learning voor tekstanalyse. Onze bronbestanden bevatten persoonsgegevens (denk aan ingevulde aanvraagformulieren en onze beoordeling daarvan). Mogen we die meenemen in het bouwen van ons systeem?
Het gebruik van persoonsgegevens is natuurlijk gereguleerd onder de AVG. In principe is het niet de bedoeling dat je persoonsgegevens voor andere doeleinden gebruikt, zie mijn blog over testen met persoonsgegevens* als voorbeeld.

Er is echter een specifieke route bij het gebruik van data voor trainen van AI. AI oftewel machine learning is immers “alleen maar” statistiek, je zoekt naar patronen met wiskundige algoritmes, bijvoorbeeld lijnen die een heleboel metingen in twee groepen (ja/nee, gevaarlijk/normaal, etc) verdeelt of een formule waarmee je een nieuwe meting kunt plaatsen. In AVG terminologie noemen we dit een verwerking voor statistische doeleinden.

Vanwege artikel 5 lid 1 sub a AVG is dat dan in principe verenigbaar met het oorspronkelijke doel, wat dat doel ook was. Je mag statistisch onderzoek doen op je rechtmatig verkregen persoonsgegevens, daar is geen aparte toestemming voor nodig. De voornaamste eis is dat wat daaruit komt, niet rechtstreeks terug wordt toegepast op de betrokken personen, en al helemaal niet als een geautomatiseerde besluitvorming (artikel 22 AVG).

Dat is bij een AI model totaal niet aan de orde. Sterker nog, persoonsgegevens zijn gewoonlijk niet meer dan ruis – die paar keer dat er “Jansen” in een veld staat, heeft geen enkel effect. De vele duizenden bedragen waartussen geïnterpoleerd kan worden, of de velden met geslacht, werkzame status et cetera zijn veel belangrijker. Het statistisch model (“de AI”) dat eruit komt, zal dus niet of nauwelijks beïnvloed zijn door die namen of adressen in het bronbestand.

Het risico dat ik wel zie, is dat je een bron-dataset hebt waarin al die Jansens met naam en toenaam staan. Dat bestand zal dus goed moeten worden bewaakt, want daarin zitten dus leesbare persoonsgegevens en die zouden kunnen lekken of voor niet-statistische doelen worden ingezet. Tegelijk zul je dit bestand wel steeds nodig hebben bij iedere update, dus dit direct weggooien is ook weer geen optie.

Arnoud * sed s/Wbp/AVG/g

VN-commissaris roept op tot stopzetting van biometrische herkenning via AI

| AE 12915 | Innovatie | 30 reacties

De commissaris voor mensenrechten bij de VN pleit voor een stopzetting op het gebruik van biometrische herkenning in de publieke ruimte, las ik bij Tweakers. Mevrouw Bachelet doet deze uitspraak in een rapport van de Verenigde Naties waarin de effecten van artificiële intelligentie op mensenrechten wordt besproken. Overheden zouden eerst moeten kunnen aantonen of er voldaan wordt aan… Lees verder

Mag je een AI telefonende politici laten signaleren en daarover tweeten?

| AE 12772 | Privacy | 4 reacties

De Vlaamse kunstenaar Dries Depoorter heeft software gemaakt die via machinelearning en gezichtsherkenning ziet wanneer een politicus op zijn of haar smartphone zit tijdens een overheidsvergadering. Dat meldde Tweakers afgelopen maandag. En de grap: de software maakt daarna een Twitter- en Instagram-bericht aan. Onder de naam The Flemish Scrollers kunnen geïnteresseerden dan constateren dat de… Lees verder

GitHub brengt AI-programmer uit die helpt bij het schrijven van code, mag dat van de GPL?

| AE 12764 | Intellectuele rechten, Ondernemingsvrijheid | 10 reacties

GitHub heeft een technische preview uitgebracht van Copilot, een AI-gedreven pair programmer die ontwikkelaars helpt bij het schrijven van code. Dat las ik bij Tweakers. Copilot stelt contextgebonden code en functies voor, en helpt acties bij het oplossen van problemen door te leren van de code die iemand schrijft. De AI is getraind op een… Lees verder

Nederlandse politie geeft details over gebruik van Boston Dynamics-robot Spot

| AE 12586 | Informatiemaatschappij | 3 reacties

De Dienst Speciale Operaties van de Nederlandse politie heeft een Spot-robot van Boston Dynamics in gebruik genomen en die onlangs voor het eerst ingezet. Dat meldde Tweakers onlangs. Spot is een robothond met als unieke eigenschap zijn natuurlijke manier van bewegen en evenwicht bewaren, waarbij je dan moet zeggen dat het “AI aangedreven is”. De variant die… Lees verder

Moet ik nog zeggen dat die ondergoedfotoapp van Albert Heijn van de AVG niet mag?

| AE 11634 | Ondernemingsvrijheid, Privacy | 28 reacties

Winkelpersoneel van Albert Heijn is binnenkort in nieuwe bedrijfskleding te zien. De maat zou worden bepaald door foto’s in ondergoed. Dat las ik bij NRC (dank, vele tipgevers, ook voor dit gedicht). De foto’s worden – als ik het goed begrijp – door een AI geanalyseerd om zo de best passende maat te weten te… Lees verder

Mag een AI-politiecamera je beboeten voor een plak roggebrood in de hand bij het rijden?

| AE 11528 | Regulering | 16 reacties

Een lezer vroeg me: Onlangs werd bekend dat de politie ‘slimme camera’s’ gaat inzetten tegen automobilisten die met hun smartphone in de hand aan het appen of bellen zijn. Maar hoe kunnen ze met zo’n camera zien of ik een telefoon vasthoud of bijvoorbeeld een navigatie-unit of zelfs een plak roggebrood? Die is ook zwart… Lees verder

Politiek wil waakhond op algoritmes, maar ik heb liever een keurmerk voor de trainingsdata

| AE 11336 | Innovatie | 14 reacties

De Nederlandse politieke partijen D66 en CDA roepen het kabinet dinsdag in een motie op toezichthouder op te zetten die het gebruik van algoritmes bij de overheid in de gaten houdt. Dat las ik bij Tweakers maandag. De macht van algoritmes is een steeds grotere angst aan het worden: ze zijn niet transparant, ze kunnen… Lees verder