OpenAI gaat verbod op crawling in robots.txt respecteren

OpenAI’s crawler gaat een regel in de robots.txt-file van websites respecteren als daarin staat dat de crawler niet welkom is. Dat meldde Tweakers dinsdag. Daarmee hebben uitgevers een praktische optie om te voorkomen dat OpenAI haar GPT-taalmodel verbetert met hun content, wat dan weer aansluit bij de Europese Auteurswet.

Al sinds generatieve AI en met name de grote taalmodellen een hype zijn, worstelt men met de vraag hoe dat nou zit, heel internet downloaden en daar een statistiekgedreven model van maken. Mag dat, mag dat niet, of mag het tenzij mensen piepen van niet?

Internetrecht herhaalt zich niet maar rijmt: bij de opkomst van zoekmachines speelde precies dezelfde discussie. Mag een “crawler” of “web spider” (toen nog met aanhalingstekens) zomaar je hele site downloaden en daar een zoekmachine mee voeden, moeten ze toestemming vragen of moet jij bezwaar kunnen maken. Daar is robots.txt als compromis voor gekomen: jij noteert waar de robots niet mogen komen, prima als je je hele site uitsluit, maar wie niets zegt, staat alles toe.

Diezelfde oplossing wordt nu aangehaald om het probleem van de AI-crawlerbots op te lossen. Noteer hun namen en zeg waar ze niet mogen komen, en dan beloven ze weg te blijven. Dat kan, en sluit zelfs aan bij de Europese benadering van auteursrecht rondom datamining (art. 15o Auteurswet):

Onverminderd het bepaalde in artikel 15n wordt een reproductie in het kader van tekst- en datamining niet als inbreuk op het auteursrecht op een werk van letterkunde, wetenschap of kunst beschouwd mits degene die de tekst- en datamining verricht rechtmatig toegang heeft tot het werk en het auteursrecht door de maker of zijn rechtverkrijgenden niet uitdrukkelijk op passende wijze is voorbehouden, zoals door middel van machinaal leesbare middelen bij een online ter beschikking gesteld werk.
In gewoon Nederlands staat hier dat je mag dataminen (en dus ook je taalmodel voeden) als je legaal bij de content kon en je geen opt-out hebt genegeerd. Een robots.txt-vermelding is een goede manier om zo’n opt-out aan te geven, dus dan komt het neer op “je mag dataminen behalve waar de robots.txt jou weert”.

Een praktisch probleem hiermee (net zoals bij de oude crawlers) is dat het alleen werkt bij robots die jou bekend zijn. Ik kan nu GPTbot buiten houden, maar hoe heet de robot van Google Bard of van Microsoft Bing? En welke robot gebruikt die Nederlandse startup die nu alle juridische sites aan het crawlen is?

Daarnaast is er het meer fundamentele punt dat we destijds bij zoekmachines op dit compromis zijn uitgekomen omdat het ergens een faire deal was. Weliswaar gebruiken ze je content zonder te vragen (laat staan te betalen) maar het resultaat was ook voor jou (en de maatschappij) nuttig, want er komen meer bezoekers en allerlei informatie wordt ontsloten.

Dat laatste lijkt op zijn zachtst gezegd wat indirecter bij AI modellen die drijven op internetcontent. Wat geeft Midjourney precies terug aan de artiesten op wiens werk die plaatjes worden gebaseerd? Wat heb ik als jurist aan een betere GPT op juridisch vlak?

Arnoud

 

2 reacties

  1. Jouw

    alleen werkt bij robots die jou bekend zijn.
    vereist even wat doordenken.

    Neem Tweakers als voorbeeld. Daar wordt User-agent: * gebruikt om alle crawlers onder één kam te scheren. Maar dat is natuurlijk bedoeld voor ‘normale’ crawlers van zoekmachine’s.

    Je kan inderdaad geen onderscheid maken en voor alle AI crawlers alle toegang blokkeren, terwijl je zoekmachines wel toestaat om de website te indexeren.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.