‘Ook OpenAI en Anthropic negeren robots.txt-verzoeken om sites niet te scrapen’

Photo by Chuck Underwood on Unsplash

OpenAI en Anthropic negeren verzoeken van websites in robots.txt-bestanden om niet gescrapet te worden. Dat las ik bij Tweakers. Dat is opmerkelijk, want eerder meldde men nog dit wel te gaan doen. De reden is onduidelijk, mogelijk heeft het te maken met het onderscheid tussen “crawlen om AI-trainingsvoer te vinden” en “crawlen om bronnen te vinden waarmee AI-uitvoer ondersteund wordt”.

Dit is dus precies waarom robots.txt niet de oplossing is voor dit probleem. Robots.txt is ooit gemaakt om boteigenaren aan te geven waar de website-eigenaar problemen verwachtte, zoals bij cgi-bin scripts of URL’s met sessieparameters of mappen waar toch niets te halen viel. Dat was handig voor de boteigenaar want dat scheelt netwerkverkeer en rotzooi weggooien.

Hier gaat het niet om elkaar helpen maar om een verbod: je mag deze site/content niet gebruiken voor jouw tekst en datamining. Ook niet als je het voorzichtig doet. Daar zit een juridisch haakje aan, artikel 15o van onze Auteurswet (gebaseerd op Europese regels) zegt dat TDM mag tenzij er een machineleesbare optout is gegeven.

Het probleem: iets is pas machineleesbaar (=zonder menselijke tussenkomst te interpreteren) als daar een standaard voor is. En die is er niet. Dus dan krijg je dat men iets pakt dat er op lijkt, namelijk robots.txt en daar dan doet alsof je een verbód uitspreekt als je zegt “GPTbot disallow *”. Dit werkt om meerdere redenen niet, al is het maar omdat je alleen per bot kunt uitsluiten en niet per soort gebruik (wel voor je zoekmachine, niet voor je dataset).

We hadden in de jaren nul hetzelfde met het Automated Content Access Protocol, dat geen succes werd omdat er geen consensus was dat je dit moest willen. En er zijn diverse pogingen om een “ai.txt”-achtige standaard te zetten, maar die hebben allemaal hetzelfde probleem: waarom zou ik dat ondersteunen? Als ik dat doe, mag ik dingen niet die de concurrent wel mag (want die ondersteunt het niet).

De enige route is dat de wetgever een standaard bindend voorschrijft, dit is hoe jij uitgever het opschrijft en daar ga jij crawlerbaas elke keer verplicht kijken voordat je verder crawlt. Maar het Europese standaardisatieproces duurt jaren. Ik ben dus heel benieuwd hoe hier een standaard geforceerd gaat worden. Een dappere rechter die durft te zeggen “genoeg uitgevers gebruiken formaat X, dat is dan vanaf vandaag maar standaard”.

Arnoud

 

13 reacties

        1. Er hoeft toch geen consensus te zijn? Stel dat die commissie de standaard uitwerkt, en dan daar een RFC van maakt. Dan zegt de W3C officieel “deze RFC is geaccepteerd als een nieuwe standaard”.

          1. Nou ja, dit is dus geen W3C werkgroep en bovendien maakt de IETF de RFC’s. Belangrijkste is: op internet komen standaarden nevernooitniet van de grond tenzij er daadwerkelijke consensus is in de praktijk dat de standaard wat toevoegt. Ik wil niet flauw doen over IPv6, maar dat is de reden dat die er niet is.

            1. Ja, dankzij NAT is IPv6 qua aantallen adressen helemaal niet nodig.

              Enige nadeel: je kunt niet op een smartphone zonder eigen IPv6 een website hosten, want dat vereist dat de router ingaand verkeer voor poorten 80 een 443 doorstuurt naar een bepaalde telefoon, en dat gaat de provider natuurlijk niet doen.

              Maar wie host er nou een website op z’n phone? Of heeft een eigen mailserver erop? Niemand.

              (Dit is zoals ik het begrijp, misschien zit ik ernaast en heb ik van alles gemist.)

  1. Wat ik me hierbij afvraag is of het volgende scenario ook onder een eventueel crawlverbod gaat vallen: ik vraag aan de AI om een samenvatting (of vertaling) te geven van een bepaald artikel, en geef daarbij de URL van het betreffende artikel. Dan moet je natuurlijk de URL gaan ophalen om de samen te vatten tekst te verkrijgen. Ik kan dat doen op de server, maar ik dan dat dus ook gewoon even op de browser van de gebruiker doen (en tenslotte kan de gebruiker ook gewoon een copy-paste actie met de tekst van het artikel doen)

    Wanneer mag het dan wel, en wanneer niet?

    1. Dat is een beetje moeilijk te zeggen. De reden dat zoekmachines zo lang hebben kunnen bestaan binnen het auteursrecht, is zeg maar de sociale opvatting dat zij de content mogen hergebruiken omdat ze doorverwijzen naar de bron. Of dat nou helemaal past in het citaatrecht is een discussie, maar de praktijk vindt het wel best zo.

      Een crawler die alle content pakt en er een AI mee bouwt, schendt die opvatting/norm/mos en zou daarmee auteursrechtelijk in de problemen komen. Maar een crawler die een AI-samenvatting geeft én doorverwijst (waarbij doorverwijzen ook nog zinnig is) zou binnen de bestaande norm gerechtvaardigd moeten zijn.

      De diverse initiatieven voor analogieën met robots.txt werken meestal met categorieën crawling, zoals searchengine of aidataset. Dan zou je dus kunnen werken door te zeggen dat jij de categorie aisearchengine bent.

  2. Dit is waarom ik enkele honeypot-domeinen heb. Gewoon simpele websites met een robots.txt die alle bots toegang verbiedt en een simpele index.html met daarin enkele A-tags in comments. Die tags verwijzen weer naar pagina’s op de server en als iemand die links bezoekt, dan zijn ze automatisch verbannen van al mijn sites. 🙂 Op basis van IP adres.

    Niet helemaal verbannen, overigens. Ze krijgen nu een soort lorum ipsum terug met extra HTML tags, na een wachttijd van 30 seconden.

  3. Robots.txt is ooit gemaakt om boteigenaren aan te geven waar de website-eigenaar problemen verwachtte, zoals bij cgi-bin scripts of URL’s met sessieparameters of mappen waar toch niets te halen viel. Dat was handig voor de boteigenaar want dat scheelt netwerkverkeer en rotzooi weggooien.

    Het weren van specifieke bots was ook een van de doelen. Dat blijkt uit de syntax en uit dit artikel uit 1995:

    Search-engine sites may also block out robots from meta-search engines (engines that search other search engines). These meta-search engines (such as SavvySearch) take data from regular search engines without forcing users to use that search site, thus depriving the creators of the original engine of valuable advertising revenue and linking ability.

    Waarom is scrapen in weerwil van robots.txt geen onrechtmatige daad? Het doen in strijd met hetgeen volgens ongeschreven recht in het maatschappelijk verkeer betaamt. Bij deze restcategorie gaat het om het afwegen van de vrijheid van ondernemerschap van OpenAI tegen het belang van de site-eigenaar om spiders te weren die content kopiëren op een manier dat mensen de site niet meer hoeven te bezoeken. Dat robots.txt daarbij wordt genegeerd is niet van doorslaggevend belang maar wel een relevante factor.

    (meer geschiedenis is hier en hier te vinden)

  4. “Verboden Toegang voor onbevoegden. Art. 461. Wetb. V. Strafr.” Ik neem aan dat hier een en ander aan jurisprudentie te vinden is. Stond het bord er? Stond het alleen aan een van de ingangen? Stond het er, maar ontbrak de verwijzing naar artikel 461? Stond er geen bord, maar wel een hoog hek?

    Ik denk dat analoog hieraan, het kunnen maar niet willen kijken naar robots.txt, voldoende is om te kunnen spreken van computervredebreuk.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.