Hoe aansprakelijk wordt OpenAI voor de zakelijke versie van ChatGPT?

OpenAI werkt aan een zakelijke, betaalde versie van zijn chatbot ChatGPT. Dat meldde Tweakers onlangs. Momenteel is de chatbot gratis maar niet voor bedrijfsdoeleinden inzetbaar (wat natuurlijk geen hond tegenhoudt om er zakelijk gebruik van te maken). Het onderscheid zal vooral zitten in beschikbaarheid, snelheid en meer berichten per minuut. Het riep wel vele vragen op, die in de comments mooi samengevat werden als “Hoe wordt er in de professionele variant rekening gehouden met data die proprietary is of waar, op zijn minst, een copyright op berust?”

Het GPT-3 taalmodel waar de chatbot mee werkt, is getraind op vele miljarden tekstvoorbeelden. Het doel is leren wat het meest logische volgende woord is – kort gezegd – op basis van een prompt en de reeds gegeven woorden. Dat is met genoeg voorbeelden prima mogelijk, zeker op het niveau van chats waarbij je een vraag moet beantwoorden. ChatGPT produceert dan ook verbluffend goede resultaten, hoewel er ook volkomen waanzinnige reacties tussen zitten die met de grootste overtuiging worden gebracht.

Die tekstvoorbeelden komen natuurlijk van internet, ‘gewoon’ met een crawler die heel internet downloadt en daar machine-leesbare chocola van maakt. De makers leggen uit dat ze meer dan een biljoen (Amerikaans trillion, 1012) woorden hebben verwerkt. Dat kan niet anders dan zonder toestemming, maar iedereen stelt dat dit onder fair use te rechtvaardigen is en weet bovendien dat het ontzettend moeilijk is aan te tonen dat specifiek iemands werk opgenomen is in de dataset, plus dat een rechtszaak om dít punt uit te vechten veel te duur is voor iedere individuele rechthebbende. Uitgesloten is het niet – zie de rechtszaak over CoPilot, waarbij software-eigenaren wel degelijk zagen hoe deze AI-tool herkenbare fragmenten uit hun werk reproduceerde als “AI-generated”.

In de VS zou er misschien nog een lichtpuntje zijn wanneer je aannemelijk kunt maken dat jouw werk is gebruikt, omdat je dan via de zogeheten discovery procedure inzage kunt krijgen in documentatie rondom de bronbestanden. Dan heb je in ieder geval het feitelijke bewijs dat jouw werk is gebruikt. Vervolgens zit je nog met het juridische punt of het inbreuk is om een AI te trainen op jouw data, of dat het pas inbreuk is als de AI jouw werk reproduceert (dat laatste lijkt me evident).

In het auteursrecht geldt nu eenmaal de regel dat het bronwerk herkenbaar terug moet komen in het beweerdelijk inbreukmakende werk. Als ik iemands artikel lees en me laat inspireren tot een hoofdstuk in een boek, dan schend ik geen auteursrechten, hooguit pleeg ik academisch plagiaat. Maar als ik het artikel min of meer naschrijf, dan komt het auteursrecht wel om de hoek kijken. De academische grap is dan ook: één bron gebruiken is plagiaat, honderd bronnen gebruiken is onderzoek. En laat AI nou dus heel duidelijk die laatste kant op gaan: als honderd bronnen gebruiken mag, dan zal varen op honderd miljoen bronnen toch zeker ook wel mogen.

Het nieuwe aan de discussie is vooral dat we nu een betaalde dienst krijgen met een SLA. Afnemers daarvan zullen meer garanties gaan eisen, waaronder dus met name een vrijwaring (indemnification) tegen claims van derden. Want als ik als rechthebbende lees dat er ergens een adviesbureau komt dat een juridische chatbot heeft, dan ga ik die natuurlijk aanklagen en niet OpenAI uit San Francisco. Want ik durf de stelling wel aan dat mijn blog ergens in die dataset zit. Dat bureau heeft dan een probleem, want die is zelfstandig aansprakelijk. Dus dan moeten ze OpenAI zo ver krijgen de verdediging te gaan voeren, en dan wordt het een groot verhaal waar best wat nuttige puntjes uit te slepen zijn.

Arnoud

Mijn foto is een datapunt in iemands AI, kan ik een schadevergoeding krijgen?

| AE 13560 | Intellectuele rechten, Ondernemingsvrijheid | 11 reacties

Simon / Pixabay

Via de website “Have I been trained” kun je achterhalen of jouw foto gebruikt is om een AI te trainen, las ik bij Ars Technica. Of nou ja, iets preciezer: of je foto in een van de enorme datasets zit waarmee tegenwoordig alle beetje fatsoenlijke AI’s worden getraind. Want die datasets zijn meestal zonder het ook maar iemand te vragen opgebouwd, dus een beetje pixeljager zou daar wel geld moeten zien. Maar valt er wel wat te eisen?

Wie een machine learning systeem wil trainen, heeft data nodig. Dat geldt voor iedere applicatie, maar voor afbeeldingen is het helemaal een complexe eis: waar haal je die enorme hoeveelheid plaatjes vandaan die nodig is om een adequate brede dekkingsgraad van je AI-toepassing te krijgen? Nou ja, dat pluk je gewoon van internet want als je het maar massaal genoeg verzamelt is het geen auteursrechtinbreuk meer maar innovatie (cf. Google Images).

De state of the art dataset tegenwoordig is LAION-5B,met 5,85 miljard afbeeldingen verreweg de grootste. Bijeengebracht voor researchdoeleinden en experimenteren met zulke enorme sets, aldus de website. “The images are under their copyright”, staat er dan ook. En dan de juridische truc, of nou ja truc, waarmee dat kan: elk item uit de dataset bevat simpelweg alleen de bron-URL van de afbeelding, waarmee de dataset zelf geen inbreuk is.

De dataset is voor haar doel buitengewoon nuttig: bij elk plaatje staan labels zoals wie of wat er te zien is. Met dergelijke metadata kun je systemen trainen die daarmee nieuwe afbeeldingen kunnen maken op een zelfbedachte suggestie (“copyright symbol racing against computer“). Die leren dan op basis van die metadata wat er zoal mogelijk is bij een dergelijke tekst.

Als je nu een dataset maakt door al die afbeeldingen te downloaden en daarmee een AI traint, heb je dan auteursrechten geschonden? De eerste stap – het downloaden – is voor onderzoekers of bedrijven problematisch, omdat in Europa in ieder geval zoiets buiten de thuiskopie-regeling valt. In de VS is dit mogelijk fair use, het staat immers legaal online en het downloaden van een afbeelding is dan fair. 

De volgende stap is het trainen van een machine learning model, waarbij dus allerlei features van die afbeeldingen worden geëxtraheerd en in combinatie met die metadata tot een algoritme wordt omgezet waarmee nieuwe afbeeldingen worden gemaakt. In principe zijn die echt nieuw, maar er zitten soms wel herleidbare stukjes in, zoals in deze foto met herkenbaar Getty watermerk. (Ik weet niet of dit is omdat het stukje met het watermerk paste bij de prompt of omdat het systeem heeft geleerd dat goede foto’s vaak een Getty watermerk dragen, en daaruit concludeerde dat dit erbij hoort.)

Het belangrijkste is, je kunt aan een AI eigenlijk nooit zien of jouw foto’s er specifiek in zitten. Deze tool maakt voor het eerst soort van dat wél mogelijk, althans als de AI-exploitant dus meldt dat hij met LAION-5B werkt (wat op zich een normale melding is, want het is nodig voor benchmarking). En dan kun je dus een claim doen, want gegarandeerd dat er dan bij dat bedrijf ergens een zipfile rondzwerft met een kopie van jouw foto(‘s).

Alleen: wat is je schade? Dit probleem is fundamenteel bij het auteursrecht online, zeker voor mensen die hun werk gratis op internet zetten. Want dan kun je niet eens de gemiste licentiekosten als schade opvoeren. En hier speelt dan ook nog eens dat we niet weten wat je auteursrechtelijk precies doet als je een foto omzet naar een berg datapunten waarmee je een image generator maakt.

De makers van deze tool hebben een iets andere insteek: zij willen dat de AI community vrijwillig overstapt naar een model waarbij toestemming de norm is, juist om de kleine creatieveling te beschermen. En dat is een heel nobel streven, met natuurlijk de kanttekening dat er weinig prikkel is om bij dit soort bedrijven hier op over te stappen.

Arnoud

 

Mag je persoonsgegevens gebruiken om een AI mee te trainen?

| AE 13135 | Ondernemingsvrijheid | 17 reacties

ahmedgad / Pixabay

Een lezer vroeg me:

Wij willen in onze organisatie gaan experimenteren met AI oftewel machine learning voor tekstanalyse. Onze bronbestanden bevatten persoonsgegevens (denk aan ingevulde aanvraagformulieren en onze beoordeling daarvan). Mogen we die meenemen in het bouwen van ons systeem?
Het gebruik van persoonsgegevens is natuurlijk gereguleerd onder de AVG. In principe is het niet de bedoeling dat je persoonsgegevens voor andere doeleinden gebruikt, zie mijn blog over testen met persoonsgegevens* als voorbeeld.

Er is echter een specifieke route bij het gebruik van data voor trainen van AI. AI oftewel machine learning is immers “alleen maar” statistiek, je zoekt naar patronen met wiskundige algoritmes, bijvoorbeeld lijnen die een heleboel metingen in twee groepen (ja/nee, gevaarlijk/normaal, etc) verdeelt of een formule waarmee je een nieuwe meting kunt plaatsen. In AVG terminologie noemen we dit een verwerking voor statistische doeleinden.

Vanwege artikel 5 lid 1 sub a AVG is dat dan in principe verenigbaar met het oorspronkelijke doel, wat dat doel ook was. Je mag statistisch onderzoek doen op je rechtmatig verkregen persoonsgegevens, daar is geen aparte toestemming voor nodig. De voornaamste eis is dat wat daaruit komt, niet rechtstreeks terug wordt toegepast op de betrokken personen, en al helemaal niet als een geautomatiseerde besluitvorming (artikel 22 AVG).

Dat is bij een AI model totaal niet aan de orde. Sterker nog, persoonsgegevens zijn gewoonlijk niet meer dan ruis – die paar keer dat er “Jansen” in een veld staat, heeft geen enkel effect. De vele duizenden bedragen waartussen geïnterpoleerd kan worden, of de velden met geslacht, werkzame status et cetera zijn veel belangrijker. Het statistisch model (“de AI”) dat eruit komt, zal dus niet of nauwelijks beïnvloed zijn door die namen of adressen in het bronbestand.

Het risico dat ik wel zie, is dat je een bron-dataset hebt waarin al die Jansens met naam en toenaam staan. Dat bestand zal dus goed moeten worden bewaakt, want daarin zitten dus leesbare persoonsgegevens en die zouden kunnen lekken of voor niet-statistische doelen worden ingezet. Tegelijk zul je dit bestand wel steeds nodig hebben bij iedere update, dus dit direct weggooien is ook weer geen optie.

Arnoud * sed s/Wbp/AVG/g

GitHub brengt AI-programmer uit die helpt bij het schrijven van code, mag dat van de GPL?

| AE 12764 | Intellectuele rechten, Ondernemingsvrijheid | 10 reacties

GitHub heeft een technische preview uitgebracht van Copilot, een AI-gedreven pair programmer die ontwikkelaars helpt bij het schrijven van code. Dat las ik bij Tweakers. Copilot stelt contextgebonden code en functies voor, en helpt acties bij het oplossen van problemen door te leren van de code die iemand schrijft. De AI is getraind op een… Lees verder

Keurig betaald met de parkeer-app en toch een bekeuring

| AE 12132 | Privacy | 30 reacties

Twee jaar geleden parkeerde rechtenhoogleraar Corien Prins haar auto in de Utrechtsestraat in het centrum van Tilburg, zo opende NRC een juridisch artikel. Ze betaalde met haar parkeer-app, die aangaf dat ze daar een uur mocht staan. Maar dat bleek niet te kloppen en ze kreeg een boete. Ja mevrouwtje, zo gaat het verhaal dan,… Lees verder

Google-medewerkers luisteren Nederlandse gesprekken mee, is dat erg?

| AE 11388 | Informatiemaatschappij | 16 reacties

Medewerkers van Google luisteren gesprekken mee die Nederlanders voeren met hun slimme Google-assistent, zonder dat Google daar vooraf duidelijkheid over geeft. Dat meldde de NOS vorige week. Het gaat om fragmenten van gesprekken die door de AI-assistent niet werden verstaan; een mens maakt dan een transcriptie waar de AI van kan leren. Vanuit technisch perspectief… Lees verder

Facebook overtreedt mogelijk AVG door medewerkers posts te laten labelen

| AE 11265 | Ondernemingsvrijheid | 13 reacties

Facebook overtreedt mogelijk de Europese privacyverordening AVG door medewerkers van daarvoor aangestelde bedrijven te laten kijken naar posts om ze te labelen. Dat las ik bij Tweakers maandag. Een team van 260 mensen uit India leest al jaren alle berichten (inclusief foto’s) om die van labels te voorzien, zo ontdekte Reuters namelijk. Die labels classificeren… Lees verder

AIVD en MIVD maken rechtmatig gebruik van persoonsgegevens in bulkdownloads

| AE 10401 | Regulering | 25 reacties

De inlichtingendiensten AIVD en MIVD gaan “rechtmatig” om met datasets met persoonsgegevens die online worden aangeboden. Dat las ik vorige week bij Nu.nl. Deze conclusie volgt uit het rapport 55 over het verwerven van op internet aangeboden bulkdatasets van de Commissie van Toezicht op de Inlichtingen- en Veiligheidsdiensten. Dat “online aangeboden” moet je met aanhalingstekens… Lees verder

Mag je de Twitter API scrapen voor wetenschappelijk onderzoek?

| AE 8877 | Intellectuele rechten | 9 reacties

Een lezer vroeg me: Deze meneer heeft een mooie data-analyse gemaakt van Donald Trump zijn tweets: Trump zelf gebruikt een Android-apparaat en een ghostwriter nuanceert de boel vanaf een iPhone. Daarbij vroeg ik mij af of dit zomaar mocht. Twitter zegt van wel bij onderzoeksdoeleinden (onder bepaalde voorwaarden). Zoals dat je je dataset niet mag… Lees verder