GitHub brengt AI-programmer uit die helpt bij het schrijven van code, mag dat van de GPL?

GitHub heeft een technische preview uitgebracht van Copilot, een AI-gedreven pair programmer die ontwikkelaars helpt bij het schrijven van code. Dat las ik bij Tweakers. Copilot stelt contextgebonden code en functies voor, en helpt acties bij het oplossen van problemen door te leren van de code die iemand schrijft. De AI is getraind op een grote dataset van publieke broncode, en dat zal vast grotendeels open source zijn onder de GPL want dat is nu eenmaal de bulk van de “publieke” software. Maar de GPL vindt daar iets van, van hergebruik.

Copilot kan automatisch opmerkingen omzetten in code, repetitieve code aanvullen en een functie testen tijdens het schrijven. Het systeem leert en verbetert zichzelf. Het klinkt als een hele goede ontwikkeling, maar als je even doordenkt dan besef je dat dit alleen kan door een héle berg broncode door te akkeren en tot een machine learning model om te zetten. Dat zegt men zelf ook:

Trained on billions of lines of public code, GitHub Copilot puts the knowledge you need at your fingertips, saving you time and helping you stay focused.

Er is die merkwaardige gedachte dat als iets “publiek” is, dat je er dan wat mee mag. Misschien moeten we naast “data is niets” nog een juridisch mantra invoeren: “dat het publiek is, is geen argument”. Want het gaat hier om software, en die is zonder twijfel auteursrechtelijk beschermd. En wanneer die “publiek” online staat, dan weet ik vrij zeker dat het om open source gaat. En dan krijg je dus te maken met de licentie. Of niet?

Interessant genoeg zegt men in de FAQ dan:

GitHub Copilot is a code synthesizer, not a search engine: the vast majority of the code that it suggests is uniquely generated and has never been seen before. We found that about 0.1% of the time, the suggestion may contain some snippets that are verbatim from the training set. Here is an in-depth study on the model’s behavior.
Er is natuurlijk een ontzettend groot verschil tussen een lap code copypasten en heel goed kijken naar “billions of lines of code” om jezelf te trainen. Wie zei dat ook weer, kopiëren uit één bron is diefstal en kopiëren uit honderd is inspiratie? Dat lijkt me hier ook van toepassing.

Het komt neer op de algemene vraag of het maken van een machine learning model een kopie is van alle brondocumenten of -data. Als dat zo is, dan krijg je met de licentie te maken en daar zou dan in dit geval de GPL op van toepassing kunnen zijn. Dan zou alle code die Copilot suggereert, onder de GPL vallen, want dan is al die code afgeleid van de GPL code die erin ging. En dan is dus ook elk door Copilot mede geschreven project GPL.

Bewijstechnisch valt daar nog wel wat op aan te merken: de GPL auteur zal moeten bewijzen dat deze suggestie gedaan is op basis van haar code, want zonder kopie geen inbreuk. En dat zal niet meevallen. Maar dat terzijde.

Is een machine learning model inbreuk op de rechten van de brondocumenten? In de VS waarschijnlijk niet. In 2019 oordeelde de Second Ciruit (de hogerberoepsrechter voor New York, Connecticut en Vermont) dat het verwerken van stukjes uit boeken om een boekenzoekalgoritme te trainen géén inbreuk op auteursrechten is. De dataset die daarmee ontstaat, is dus niet onderworpen aan toestemming (of licentie) van de boekenrechthebbenden.

In Europa zijn er geen vergelijkbare zaken. We hebben wel de Infopaq-zaak, waarin werd bepaald dat het overnemen en verspreiden van 11 woorden (een snippet in zoekresultaten) onderworpen kan zijn aan auteursrechten, maar het ging daar om het publiceren van zoekresultaten in een nieuwsbrief. Dat is toch echt wat anders dan een statistisch model maken waarin staat dat codestukje X vaak samengaat met Y, of dat constructie A goed aansluit bij aanhef B. Ik volg dan ook de conclusie van professors Gotzen en Janssens:

Vooral de overwegingen in de arresten Infopaq I, in verband met bepaalde handelingen van ‘data capturing’ die onder het toepassingsgebied van de uitzondering kunnen vallen, verdienen aandacht. Maar de vijf voorwaarden die de uitzondering … oplegt, zijn cumulatief en, mede in het licht van de regel van de strikte interpretatie, zijn we niet geneigd om te concluderen dat alle gebruikshandelingen voor het trainen van AI-systemen die gebruik maken van beschermd materiaal, door deze uitzondering zullen worden afgedekt.
Die vijf voorwaarden zijn als volgt:
  1. deze handeling is tijdelijk;
  2. deze handeling is van voorbijgaande of incidentele aard;
  3. deze handeling vormt een integraal en essentieel onderdeel van een technisch procedé;
  4. dit procedé wordt toegepast met als enig doel de doorgifte in een netwerk tussen derden door een tussenpersoon of een rechtmatig gebruik van een werk of beschermd materiaal mogelijk te maken, en
  5. deze handeling bezit geen zelfstandige economische waarde.
Een machine learning dataset maken is een tijdelijke handeling, die essentieel en integraal nodig is om het neuraal netwerk mee te maken. Dat trainen is niet op zichzelf economisch waardevol (de exploitatie van het resultaat natuurlijk wel, maar dat bedoelt men hier niet). Punt 4 zou je dan naar analogie moeten interpreteren, wat het Hof van Justitie doet in punt 64 van het arrest:
wanneer de levensduur ervan is beperkt tot hetgeen noodzakelijk is voor de goede werking van het betrokken technische procedé, waarbij dit procedé geautomatiseerd moet zijn zodat deze handeling automatisch, zonder menselijke interventie, wordt gewist zodra de functie ervan om dit procedé mogelijk te maken is vervuld.
Oftewel in gewone taal “ik extraheer even de essentiële kenmerken om een statistisch model te maken, daarna gooi ik het weer weg” en dat zou dan mogen.

Arnoud

Het overtrekken van een foto zonder auteursrechtinbreuk (en een nieuwtje voor startups)

monta-foto-vector-overtrekkenEen vector logo gebaseerd op een foto is geen inbreuk op het auteursrecht van de fotograaf, nu het logo geen gebruik maakt van auteursrechtelijk beschermde trekken. Dat vonniste (arresteerde?) het Gerechtshof Amsterdam twee weken terug. De foto en het logo (klik voor groot) zie je hiernaast.

Monta is een straatvoetbalmerk, en dat had een logo nodig. De foto links werd door een professioneel fotograaf aangeleverd, maar Monta had de licentie uiteindelijk niet betaald. Monta meende (denk ik) dat dat niet hoefde, omdat ze niet de foto in haar logo had verwerkt maar enkel het silhouet van de voetballer. De fotograaf zag dat toch echt als inbreuk op auteursrecht: ook een bewerkte versie van de foto is een kopie van de foto.

Een terecht argument, mits je in de bewerking creatieve elementen van de originele foto terug kunt vinden. De fotograaf wees onder meer op de wapperende jas- en broekzak, de capuchon en de wapperende broek bij de enkels.

Het gerechtshof ziet echter geen creatieve inbreng van de fotograaf terug in het logo. Wat je daar ziet is kleding, bal en lichaamshouding en dat heeft de fotograaf niet op creatieve wijze gekozen:

Dat betreft niet de keuze van de kleding en de bal, nu het gaat om productfotografie en deze door Monta aan [geïntimeerde sub 1] ter beschikking zijn gesteld. Dat betreft evenmin de actie van [W.] of zijn lichaamshouding daar uit niets blijkt dat [geïntimeerde sub 1] [W.] ter zake heeft geïnstrueerd en bovendien, een feit van algemene bekendheid, een dergelijke lichaamshouding op veel voetbalfoto’s voorkomt, omdat die houding bepaald wordt door de dribbelachtige actie.

Hiermee is het logo geen inbreuk: zonder creatieve inbreng van de fotograaf in hetgeen je in het logo ziet kan er geen sprake zijn van schending van auteursrechten.

Een veelgehoord misverstand bij dit soort zaken is dat als het logo een eigen creatief werk is van de logo-maker, er geen inbreuk zou zijn. Het is niet relevant hoe creatief het eindproduct is. Noch of er een eigen auteursrecht geclaimd kan worden op het eindproduct. Waar het om gaat, is of je creatieve trekken van het bronwerk terug kunt vinden in het afgeleide werk.

Oh, en een huishoudelijke mededeling: ik ga op vakantie en ben maandag 18 augustus er weer met verse blogs. Tijdens de vakantie publiceer ik een aantal gastblogs, en de nodige tirades die ik al een tijdje had liggen. En voor starters interessant: de serie #startuprecht bij de ICTRecht weblog gedurende de maand augustus.

Arnoud