Een lezer vroeg me:
Er is de laatste tijd veel gedoe over het scrapen van Linkedin- en andere profielen in de context van de AVG. Wat is de rol van robots.txt hierbij?Het robots.txt bestand is in 1994 ontwikkeld als vrijwillig protocol. Website-eigenaren geven aan welke robots waar ongewenst zijn, en robot-eigenaren checken hierop alvorens de robot los te laten.
Het protocol is vrijwillig: er is geen wet die eist dat je je eraan houdt. Er is nu wat auteursrechtelijke discussie over robots.txt als TDM opt out, en in 2018 speelde het bestandje een zijdelingse rol bij een discussie over “binnendringen” in het strafrecht. Dat is het wel zo’n beetje.
Scrapen van bergen profielen met persoonsgegevens is om vele redenen aantrekkelijk. De laatste tijd met name om mooie chatbots te kunnen trainen, maar ook het maken van matching-algoritmes voor personen en vacatures is een populaire natuurlijk. Sites zoals Linkedin hebben er een dagtaak aan ongewenste robots buiten te houden.
Robots.txt zou in die context een rol kunnen spelen, maar omdat het dus een vrijwillige standaard is, houden de eigenaren van bovengenoemde bots zich er natuurlijk niet aan en spelen dan mooi weer dat het om “openbare data” gaat en dat hun “gerechtvaardigd belang bij direct marketing (overweging 40 AVG)” dan zwaarder weegt.
Een indirecte rol zou je kunnen vinden in die belangenafweging. Je zegt dan, het feit dat robots.txt vermeldt dat die profielen niet bezocht mogen worden is een factor die wijst op een privacybelang dat tegen het commerciële belang van de scraper opweegt.
Dit is van dezelfde orde als een beding in de gebruiksvoorwaarden dat zulk scrapen verbiedt. Het kan, maar heel sterk vind ik het niet: die voorwaarde en die vermelding in robots.txt gaan niet over privacy van mensen, maar over een keuze van de website-eigenaar.
Arnoud