Hoe kan ik verbieden dat er AI’s worden getraind op mijn open source code?

Een lezer vroeg me:

Het is algemeen bekend dat alle grote repositories (zoals Github) met open source software gebruikt worden om AI via te trainen. Als developer heb ik daar grote moeite mee. Kan ik dit via een toevoeging aan mijn licentie verhinderen?
Het is een basisbeginsel van open source dat je niet mag discrimineren op beoogd gebruik van je software (OSD #6):
The license must not restrict anyone from making use of the program in a specific field of endeavor. For example, it may not restrict the program from being used in a business, or from being used for genetic research.
Gebruik in de vorm van een machine learning algoritme laten tekst- en data minen op jouw auteursrechtelijk beschermde programmeerkeuzes valt hier net zo goed onder als het gebruiken van de software om een kruisraket mee te programmeren.

Dit was een bewuste keuze in 2006: ook toen waren er vele discussies over het kunnen uitsluiten van ongewenst of ethisch verwerpelijk gebruik van open source – waar “gebruik om zelf geld mee te verbieden” oftewel zakelijk gebruik toen zeer zeker in betrokken was.

Dat gezegd hebbende, de Auteurswet kent een aparte constructie voor het verhinderen van tekst- en data mining. Wie dat niet wil, kan een machineleesbare opt-out bij zijn code opnemen en AI-crawlerbots moeten daaruit afleiden dat het overnemen en TDM niet moet gebeuren.

Probleem hierbij is dat er vooralsnog geen standaard is om deze opt-out mee te beschrijven. Maar gesteld dat die er is, twijfel ik of je dat voorbehoud (opt-out) mag zien als een beperking op de OSS licentie of als een separate juridische afspraak. Ik neig naar het eerste – en dan mag je dus geen voorbehoud maken.

Arnoud

5 reacties

  1. Deze wordt lastig als een machine het verlengstuk van een mens is dan ga je mensen discrimeneren op hun uiterlijk geloof en fysieke kenmerken. Dat lijkt me een overtreding van de grondwet en EVRM waar dat soort discriminatie met goede reden verboden is.

    Het is het dubbele in het delen van kennis, je weet niet wie het gaat gebruiken en hoe die het gaat gebruiken. Het is hetzelfde dilemma in de vraag wat je gaat doen als je het weer zelf zou kunnen bepalen per moment en per locatie.

  2. In het gerefereerde OSD-document staat onder punt 3:

    3. Derived Works

    The license must allow modifications and derived works, and must allow them to be distributed under the same terms as the license of the original software. Je zou wat de AI er van brouwt kunnen zien als modificatie of afgeleid werk. Dan rust op de AI de plicht om de licentievoorwaarden mee te nemen. Aan die verplichting wordt niet voldaan.

        1. Het gaat dan heel hard om de herkenbaarheid van de code fragmenten; zijn die herleidbaar tot een GPL bron? Bij auteursrechtinbreuk moet de rechthebbende kunnen aanwijzen welke fragmenten overgenomen zijn, en moeten die fragmenten voldoende uniek zijn om daaruit het bronwerk te identificeren. Er zijn code fragmenten die tot de “standaard inventaris” van programmeurs behoren en daarmee onvoldoende uniek zijn om onder auteursrechtelijke bescherming te vallen. (De uiteindelijke combinatie van tientallen standaard code fragmenten tot een programma is veelal wel beschermd.)

          Dus als de snippertjes klein genoeg zijn voor ze half-willekeurig gecombineerd worden krijg je een niet-afgeleid werk.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.