Welke betekenis heeft robots.txt onder de AVG?

"Robots.txt para Google Maps" by _k40s_ is licensed under CC BY-NC-ND 2.0

Een lezer vroeg me:

Er is de laatste tijd veel gedoe over het scrapen van Linkedin- en andere profielen in de context van de AVG. Wat is de rol van robots.txt hierbij?
Het robots.txt bestand is in 1994 ontwikkeld als vrijwillig protocol. Website-eigenaren geven aan welke robots waar ongewenst zijn, en robot-eigenaren checken hierop alvorens de robot los te laten.

Het protocol is vrijwillig: er is geen wet die eist dat je je eraan houdt. Er is nu wat auteursrechtelijke discussie over robots.txt als TDM opt out, en in 2018 speelde het bestandje een zijdelingse rol bij een discussie over “binnendringen” in het strafrecht. Dat is het wel zo’n beetje.

Scrapen van bergen profielen met persoonsgegevens is om vele redenen aantrekkelijk. De laatste tijd met name om mooie chatbots te kunnen trainen, maar ook het maken van matching-algoritmes voor personen en vacatures is een populaire natuurlijk. Sites zoals Linkedin hebben er een dagtaak aan ongewenste robots buiten te houden.

Robots.txt zou in die context een rol kunnen spelen, maar omdat het dus een vrijwillige standaard is, houden de eigenaren van bovengenoemde bots zich er natuurlijk niet aan en spelen dan mooi weer dat het om “openbare data” gaat en dat hun “gerechtvaardigd belang bij direct marketing (overweging 40 AVG)” dan zwaarder weegt.

Een indirecte rol zou je kunnen vinden in die belangenafweging. Je zegt dan, het feit dat robots.txt vermeldt dat die profielen niet bezocht mogen worden is een factor die wijst op een privacybelang dat tegen het commerciële belang van de scraper opweegt.

Dit is van dezelfde orde als een beding in de gebruiksvoorwaarden dat zulk scrapen verbiedt. Het kan, maar heel sterk vind ik het niet: die voorwaarde en die vermelding in robots.txt gaan niet over privacy van mensen, maar over een keuze van de website-eigenaar.

Arnoud

7 reacties

  1. Robots.txt zou in die context een rol kunnen spelen, maar omdat het dus een vrijwillige standaard is, houden de eigenaren van bovengenoemde bots zich er natuurlijk niet aan […]

    Is hier een vergelijking te maken met een schoolplein waar een bordje bij staat ‘verboden toegang tussen 22:00 en 07:00 uur’?

    Wat exact de juridische status daarvan is weet ik niet, maar ondanks dat het een vrijwillige standaard is, is het wel een uniforme manier om als eigenaar helder te maken wat je wel of niet toestaat op jouw terrein.

    Bij een dergelijk bordje kan ik me goed voorstellen dat een rechter zegt ‘u wist – of had moeten weten – dat het niet de bedoeling was omdat dat bordje daar hing’, of; ‘er hing geen bordje dus u kon niet weten dat het niet de bedoeling was…’.

    Tegelijkertijd kan ik me voorstellen dat het bij websites net anders is dan zo’n bordje voor een fysiek terrein. Maar of dat zo is, en waar dan precies het verschil in zit?

    1. Zo’n bordje is naar Nederlands recht een verbod dat via artikel 461 Strafrecht maakt dat je per direct erfvredebreuk pleegt als je daar bent tussen 22 en 07 uur. Zonder dat bordje moet de eigenaar je eerst sommeren weg te gaan, en dat is gedoe in dat tijdvak. Dus ja, dat bordje is keihard een juridisch ding.

      Er is oudere Nederlandse jurisprudentie die zegt dat je als eigenaar van een webserver regels mag stellen (HR Ab.Fab/XS4All), zoals de regel dat men geen spammails gaat aannemen en in mailboxen stoppen. In theorie kun je dan robots.txt als het digitale equivalent van het art. 461-bordje opvoeren. Dit is echter nooit getest, en of men in andere landen het ook zo zou zien is maar zeer de vraag.

  2. In het verleden had ik een mooi valkuil voor scrapers op mijn website. Als zij een bepaalde, voor normale bezoekers onzichtbare link volgden, kwamen zij in een speciale pagina, waar zijn steeds weer meer random gegenereerde nep “persoonsgegevens” zoals email adressen konden oogsten, natuurlijk met een behoorlijke vertraging, om de belasting van mijn server binnen de perken te houden. Bij het bezoeken van de pagina ging ook de rest van de website voor een uurtje op slot.

    Ik weet niet hoe effectief zoiets nu nog kan zijn.

  3. En nou even AI loslaten op je artikel, gewoon omdat het kan… 😀

    Dit is een interessante vraag over de snijvlakken van technologie, recht en ethiek! Arnoud legt het al goed uit in zijn blogpost, maar laat me het voor je samenvatten en aanvullen:

    Robots.txt en de AVG: een indirecte link

    Robots.txt is een bestand waarmee website-eigenaren aangeven welke delen van hun website niet door webcrawlers (robots) mogen worden bezocht. Het is een vrijwillige standaard, wat betekent dat er geen wettelijke verplichting is om je eraan te houden.

    De AVG (Algemene Verordening Gegevensbescherming) is een Europese wet die de privacy van persoonsgegevens beschermt.

    Hoe robots.txt relevant kan zijn in de context van de AVG:

    • Signaal: Een website-eigenaar kan robots.txt gebruiken om aan te geven dat bepaalde gegevens, zoals persoonsgegevens op LinkedIn profielen, niet bedoeld zijn voor geautomatiseerde verzameling. Dit kan dienen als een signaal dat de website-eigenaar waarde hecht aan de privacy van zijn gebruikers.
    • Belangenafweging: In geval van een geschil over het scrapen van persoonsgegevens, kan de aanwezigheid van een robots.txt bestand dat het scrapen verbiedt, worden meegewogen in de belangenafweging. Het is een indicatie dat de website-eigenaar de privacy van zijn gebruikers wil beschermen.
    • Bewijs: Als een bedrijf toch persoonsgegevens screept ondanks een verbod in robots.txt, kan dit dienen als bewijs dat het bedrijf onvoldoende rekening heeft gehouden met de privacy van betrokkenen.

    Belangrijk om te onthouden:

    • Robots.txt is geen waterdichte bescherming tegen scrapen. Gemotiveerde scrapers kunnen het bestand negeren.
    • Robots.txt is geen vervanging voor andere privacymaatregelen, zoals encryptie, pseudonimisering en toestemming.
    • De AVG is complex en de interpretatie van de wet is afhankelijk van de specifieke omstandigheden.

    Conclusie:

    Robots.txt heeft geen directe juridische betekenis onder de AVG, maar kan wel een rol spelen in de context van gegevensbescherming. Het is een hulpmiddel dat website-eigenaren kunnen gebruiken om aan te geven dat ze de privacy van hun gebruikers serieus nemen.

    Aanvulling:

    Naast de punten die Arnoud noemt, is het ook belangrijk om te weten dat de AVG vereist dat bedrijven transparant zijn over hoe ze persoonsgegevens verzamelen en gebruiken. Als een bedrijf persoonsgegevens screept van een website, moet het de gebruikers hiervan op de hoogte stellen en een wettelijke basis hebben voor de verwerking van deze gegevens. Ja, ik ben ondertussen AI-verslaafd. Is wel nodig, anders neemt AI mijn werk over.

      1. Inderdaad, en ik kom het jammer genoeg steeds meer tegen. Zelfs bij voor veel geld ingehuurde externe projectleiders van bedrijven met een beurswaarde in de vele miljarden die dan een complex en genuanceerd technisch document denken te kunnen begrijpen door het te laten samenvatten door chatgpt.

        Ik gebruik zelf ook chatgpt, voor een aantal specifieke toepassingen waarvoor het een handig hulpmiddel is, maar dit is een voorbeeld van wanneer het dat zeker niet is.

      2. Kom op, iets positiever mag best. In bovenstaande tekst is tweemaal het woord “screept” genoemd. Een lovenswaardige verrijking van ons woordenboek!

        Overigens lijkt me het hebben van een dwingende toegangscontrole meer dan wenselijk gezien de toename van steeds groter wordende stofzuigers op Internet

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.