Hoe aansprakelijk wordt OpenAI voor de zakelijke versie van ChatGPT?

OpenAI werkt aan een zakelijke, betaalde versie van zijn chatbot ChatGPT. Dat meldde Tweakers onlangs. Momenteel is de chatbot gratis maar niet voor bedrijfsdoeleinden inzetbaar (wat natuurlijk geen hond tegenhoudt om er zakelijk gebruik van te maken). Het onderscheid zal vooral zitten in beschikbaarheid, snelheid en meer berichten per minuut. Het riep wel vele vragen op, die in de comments mooi samengevat werden als “Hoe wordt er in de professionele variant rekening gehouden met data die proprietary is of waar, op zijn minst, een copyright op berust?”

Het GPT-3 taalmodel waar de chatbot mee werkt, is getraind op vele miljarden tekstvoorbeelden. Het doel is leren wat het meest logische volgende woord is – kort gezegd – op basis van een prompt en de reeds gegeven woorden. Dat is met genoeg voorbeelden prima mogelijk, zeker op het niveau van chats waarbij je een vraag moet beantwoorden. ChatGPT produceert dan ook verbluffend goede resultaten, hoewel er ook volkomen waanzinnige reacties tussen zitten die met de grootste overtuiging worden gebracht.

Die tekstvoorbeelden komen natuurlijk van internet, ‘gewoon’ met een crawler die heel internet downloadt en daar machine-leesbare chocola van maakt. De makers leggen uit dat ze meer dan een biljoen (Amerikaans trillion, 1012) woorden hebben verwerkt. Dat kan niet anders dan zonder toestemming, maar iedereen stelt dat dit onder fair use te rechtvaardigen is en weet bovendien dat het ontzettend moeilijk is aan te tonen dat specifiek iemands werk opgenomen is in de dataset, plus dat een rechtszaak om dít punt uit te vechten veel te duur is voor iedere individuele rechthebbende. Uitgesloten is het niet – zie de rechtszaak over CoPilot, waarbij software-eigenaren wel degelijk zagen hoe deze AI-tool herkenbare fragmenten uit hun werk reproduceerde als “AI-generated”.

In de VS zou er misschien nog een lichtpuntje zijn wanneer je aannemelijk kunt maken dat jouw werk is gebruikt, omdat je dan via de zogeheten discovery procedure inzage kunt krijgen in documentatie rondom de bronbestanden. Dan heb je in ieder geval het feitelijke bewijs dat jouw werk is gebruikt. Vervolgens zit je nog met het juridische punt of het inbreuk is om een AI te trainen op jouw data, of dat het pas inbreuk is als de AI jouw werk reproduceert (dat laatste lijkt me evident).

In het auteursrecht geldt nu eenmaal de regel dat het bronwerk herkenbaar terug moet komen in het beweerdelijk inbreukmakende werk. Als ik iemands artikel lees en me laat inspireren tot een hoofdstuk in een boek, dan schend ik geen auteursrechten, hooguit pleeg ik academisch plagiaat. Maar als ik het artikel min of meer naschrijf, dan komt het auteursrecht wel om de hoek kijken. De academische grap is dan ook: één bron gebruiken is plagiaat, honderd bronnen gebruiken is onderzoek. En laat AI nou dus heel duidelijk die laatste kant op gaan: als honderd bronnen gebruiken mag, dan zal varen op honderd miljoen bronnen toch zeker ook wel mogen.

Het nieuwe aan de discussie is vooral dat we nu een betaalde dienst krijgen met een SLA. Afnemers daarvan zullen meer garanties gaan eisen, waaronder dus met name een vrijwaring (indemnification) tegen claims van derden. Want als ik als rechthebbende lees dat er ergens een adviesbureau komt dat een juridische chatbot heeft, dan ga ik die natuurlijk aanklagen en niet OpenAI uit San Francisco. Want ik durf de stelling wel aan dat mijn blog ergens in die dataset zit. Dat bureau heeft dan een probleem, want die is zelfstandig aansprakelijk. Dus dan moeten ze OpenAI zo ver krijgen de verdediging te gaan voeren, en dan wordt het een groot verhaal waar best wat nuttige puntjes uit te slepen zijn.

Arnoud

Microsoft en Github aangeklaagd voor opensourceschending door AI tool

| AE 13669 | Informatiemaatschappij, Intellectuele rechten | 17 reacties

Otto, the inflatable autopilot from the movie “Airplane.”

Programmeur en jurist Matthew Butterick heeft Microsoft en Github aangeklaagd vanwege schendingen van opensourcelicenties, las ik bij Bleeping Computer. De reden is Github’s tool Copilot, een AI code generator die getraind is op de bergen software die op Github gehost worden. De generator blijkt regelmatig lappen tekst uit bestaande werken 1-op-1 aan te leveren, zonder daarbij de juiste licentie + bron te noemen. Hoe zeiden ze dat ook weer, één bron jatten is plagiaat en duizend is inspiratie?

Vorig jaar bracht Github de dienst Copilot uit, een AI-gedreven pair programmer die ontwikkelaars helpt bij het schrijven van code. Copilot stelt contextgebonden code en functies voor, en helpt actief bij het oplossen van problemen door te leren van de code die iemand schrijft. “Trained on billions of lines of public code, GitHub Copilot puts the knowledge you need at your fingertips, saving you time and helping you stay focused.” Het idee is vrij simpel: soms heb je even een klein zetje nodig, een paar regels code om weer verder te kunnen – of om te beseffen, nee dit is precies niet hoe het moet. (Ik experimenteer zelf met Lex.page, die dit doet voor tekstschrijvers, als iemand een invite wil hoor ik het graag.)

Het probleem is natuurlijk: die suggesties moeten ergens vandaan komen. Dat is dus die inspiratie, die patronen die Copilot leert herkennen in honderdduizenden bestanden met source code. Net zoals Lex.page en vele andere tools dat doen met tekst, en DALL-E en consorten met afbeeldingen. Alleen: die hebben een bronbestand dat orde van groottes ruimer is. Alle teksten van heel internet versus alle geprogrammeerde software op Github, dat scheelt nogal een slok op een borrel. Daar komt bij dat er bij software nou eenmaal heel wat minder manieren zijn om iets aan te geven, het moet nou eenmaal technisch aansluiten op het voorgaande.

Het verbaast mij dan ook helemaal niets dat je bij Copilot veel vaker gewoon een lap code uit eerdere software krijgt, “hier, zoals deze het doet”. Dat is helemaal logisch gezien context en dataset, alleen is dat juridisch dus problematisch want een lap broncode in je eigen werk overnemen noemen wij auteursrechtinbreuk tenzij dat mag van de licentie. En aangezien dat dus vaak een opensourcelicentie is, krijg je dan te maken met eisen zoals naamsvermelding of – bij de GPL – het weer moeten open sourcen van je eigen broncode wanneer je dat werk publiceert.

Naar goed Amerikaans gebruik is Butterick dus nu een class action lawsuit begonnen, waar iedereen mag meedoen die ook code op Github heeft staan. Het lastige bij zulke zaken is altijd bewijzen dat jouw werk is overgenomen. Maar specifiek bij dit soort Amerikaanse zaken kan dit interessant worden: als onderdeel van de discovery procedure moet Github op zeker moment onthullen hoe zij aan haar dataset is gekomen. En dan kun je gewoon zien dat jouw code daarin is opgenomen (of niet, maar dat lijkt onwaarschijnlijk).

Arnoud

Brein verliest hoger beroep om Ziggo waarschuwingsbrieven te laten versturen

| AE 13611 | Intellectuele rechten, Ondernemingsvrijheid | 13 reacties

Ziggo hoeft waarschuwingsbrieven van stichting Brein niet door te sturen naar klanten, zo meldde Security.nl onlangs. Volgens het gerechtshof Arnhem-Leeuwarden is er er geen juridische grondslag die Ziggo verplicht hieraan mee te werken. Dit bekrachtigt een vonnis uit februari waarin de rechtbank ook bepaalde dat de provider geen torrent-waarschuwingsbrieven van Brein hoeft te sturen naar frequente torrentgebruikers.

Zoals ik in februari blogde, het ging hier om een nieuw idee van de auteursrechthandhaver: identificeer frequente uploaders, en stuur ze een “we hebben je in de gaten”-brief in de hoop dat men ermee stopt. Dat is niet hetzelfde als ze gelijk dagvaarden, wat gezien de kosten en gedoe niet meteen wenselijk is. Maar de ervaring leert dat als je mensen waarschuwt, ze er regelmatig mee stoppen – al is het maar omdat ze denken dat de volgende stap wél een rechtszaak is.

Alleen een probleempje: het verwerken van persoonsgegevens van personen waartegen een min of meer gegronde verdenking bestaat van handelingen die inbreuk maken op een auteursrecht, moet aangemerkt worden als het verwerken van strafrechtelijke persoonsgegevens. Dit aldus de Autoriteit Persoonsgegevens in haar onderzoek tegen Dutch Filmworks die direct met boetes naar torrenters wilde gaan smijten.

Vanwege die reden concludeerde de rechtbank in februari dat Ziggo een vergunning nodig zou hebben (om als “privédetective” in opdracht strafrechtelijke persoonsgegevens te verzamelen). Dat staat inderdaad in de AVG als je die formeel leest, maar het doet gek aan want Ziggo is niet echt een particulier recherchebureau dat in de virtuele bosjes gaat liggen om mensen structureel in de gaten te houden.

Het Hof begint in hoger beroep met zich af te vragen op grond waarvan Ziggo überhaupt brieven door moet sturen. De redenering van Brein was: op grond van Lycos/Pessers moet je namen en adressen afgeven van inbreukmakers, een brief doorsturen is minder erg voor die mensen hun privacy dus dan kan daar geen argument tegen zijn. Het Hof ziet dat anders:

In deze zaak gaat het er niet om dat Brein zich bij de burgerlijke rechter teweer wil stellen tegen specifieke onrechtmatige gedragingen. Zij wil overtreders waarschuwen. Het mogelijk onthouden van effectieve rechtsbescherming aan een (rechts)persoon die meent onrechtmatig bejegend te worden is hier niet aan de orde.
Lycos/Pessers ging erom dat je moet kunnen procederen tegen een concreet iemand. Maar diverse onbepaalde iemanden een boze brief sturen is nog geen juridische actie, daarom valt het buiten de rechtsplicht die dat arrest oplegt.

Brein eist op dit moment al NAW gegevens van grote uploaders met als doel daartegen rechtsmaatregelen te nemen.

Die verzoeken worden volgens Brein doorgaans toegewezen. Niet aannemelijk is dus dat het verzenden van waarschuwingsbrieven een noodzakelijke stap is om civielrechtelijke actie te kunnen ondernemen tegen (een andere groep van) inbreukmakers. Ook is nog niet duidelijk in hoeverre het doorsturen van waarschuwingsbrieven zal maken dat in de toekomst op een kleinere schaal auteursrechtinbreuken zullen worden gepleegd. Partijen verschillen daarover van mening, maar vooralsnog heeft Brein niet voldoende onderbouwd gesteld dat te verwachten valt dat dat doel juist bereikt kan worden met (dit onderdeel van) de waarschuwingscampagne.
Het belang van Brein is dus enigszins speculatief te noemen. Daar staat tegenover dat Ziggo dus inderdaad stevige maatregelen moet nemen: een nieuw bedrijfsproces inrichten, daarbij rekening houden met de strenge eisen uit de AVG voor strafrechtelijke persoonsgegevens, een DPIA uitvoeren en wat al niet meer. En inderdaad dus ook die recherche-vergunning ex artikel 33 lid 4 sub c UAVG.

Het klopt, maar toch voelt het een tikje raar. Brein mag dus wel NAW gegevens van inbreukmakers eisen voor een gerechtelijke procedure, maar niet NAW gegevens van inbreukmakers om een voorlichtingsfolder en “hou op” brief te sturen? Ik snap de weerstand maar het voelt inconsequent en ik heb moeite de argumentatie van het Hof te volgen.

Arnoud

Mag ik een AI-artiest online zetten of moet ik bang zijn voor het auteursrecht?

| AE 13568 | Intellectuele rechten, Ondernemingsvrijheid | 1 reactie

Een lezer vroeg me: Gisteren heb ik zitten spelen met zo’n machine-learning ai die plaatjes maakt van een tekstje (“prompt”). Dat tekstje en een aantal getals-parameters kun je zelf invullen en tweaken. Het resultaat is een webpagina vol met schilderijen waarop acteur Brad Pitt te zien is alsof hij geschilderd is door Monet, van Gogh, Degas, enzovoort. Als ik… Lees verder

Oostenrijkse providers blokkeren Cloudflare-IP’s na gerechtelijk bevel

| AE 13524 | Informatiemaatschappij, Regulering | 13 reacties

In Oostenrijk zijn IP-adressen van Cloudflare geblokkeerd bij meerdere providers omdat websites die illegale software en media aanbieden daar gebruik van maken. Dat meldde Tweakers vorige week. Een foutje, een auteursrechtwaakhond had die IP-adressen per ongeluk opgenomen in een blokkadelijst die gericht was tegen de downloadsite Newalbumreleases punt net. Pijnlijk, want Cloudflare hergebruikt IP-adressen zeer… Lees verder

In Amerika kan een AI geen auteursrecht krijgen op gegenereerde kunst

| AE 13273 | Innovatie | 6 reacties

Voor het hiernaast getoonde kunstwerk is geen auteursrecht mogelijk, zo las ik bij The Verge. Ingenieur Steven Thaler had de door hem ontwikkelde Creativity Machine dit werk laten maken, “A Recent Entrance to Paradise”, als deel van een serie werken waarin een AI de weg naar het hiernamaals visualiseert. De Copyright Review Board van het Copyright Office weigerde… Lees verder

Tienduizend Nederlanders slaan handen ineen voor Nachtwacht op Reddit, wie heeft het auteursrecht?

| AE 13267 | Intellectuele rechten | 16 reacties

Deze ‘gepixelde’ versie van de Nachtwacht prijkt prominent op Reddit, maar daar waren tienduizend Nederlanders en flink wat organisatie voor nodig. Dat meldde Apparata onlangs. De kunst-in-vereniging is een resultaat van r/place: een sociaal kunstinitiatief, begonnen als 1-aprilgrap maar ondertussen een zeer indrukwekkend experiment geworden. Wel met natuurlijk het juridische haakje: wie is er rechthebbende… Lees verder

Broncode van originele WipEout-game voor PSX en Windows verschijnt online

| AE 13253 | Ondernemingsvrijheid | 1 reactie

De originele broncode van de eerste WipEout-game is op internet verschenen, las ik bij Tweakers. Een groep historici heeft de broncode gevonden van de futuristische game uit 1995, een van de launchgames van de originele PlayStation. Men meldt op Twitterr dat onduidelijk is of de code zal compileren, en verzoekt vriendelijk doch dringend niet te vragen om… Lees verder

Van wie is de IP op wat ik buiten werkuren programmeer?

| AE 13228 | Intellectuele rechten, Ondernemingsvrijheid | 10 reacties

Via Reddit: “All work that you create during your employment, is owned by XYZ. Check page X for details on this as well.” Page X says “If, in connection with your employment, intellectual property rights are or become vested in results from your work (‘Work’): [… the company owns it]. Dutch Law is applicable.” De… Lees verder

Nike klaagt StockX aan om verkoop NFT’s van sneakers

| AE 13151 | Intellectuele rechten | 24 reacties

Kledingmerk Nike heeft het onlineplatform StockX aangeklaagd voor het maken en verkopen van ongeautoriseerde afbeeldingen van zijn sneakers, las ik bij RTL Nieuws. De NFT’s (zoals hiernaast getoond) bevatten immers het merk van Nike, waar deze niet blij mee is. StockX had tegen kopers gezegd dat ze deze tokens in de toekomst zouden kunnen inwisselen… Lees verder