Is scrapen van een website computervredebreuk?

sale-afgeprijsd-uitverkoop.pngEen lezer vroeg me:

Is scrapen van een website computervredebreuk? Er wordt immers iets gedaan met het systeem waar geen toestemming voor is.

Bij scrapen wordt kort gezegd alle informatie van een website opgehaald met een geautomatiseerd proces. Vaak is dat bedoeld voor metazoekmachines zoals prijsvergelijkers, die overal de prijs vandaan halen om de beste match te kunnen tonen. Maar gescrapete informatie kan natuurlijk voor allerlei doelen worden gebruikt.

Over scrapen is juridisch veel te doen. Bronwebsites vinden het vaak niet leuk, en proberen er met gebruiksvoorwaarden, auteursrecht of databankrecht wat tegen te doen. In 2015 won Ryanair nog een zaak tegen een scrapende prijsvergelijker. Het Hof van Justitie bepaalde toen dat Ryanair in principe in haar voorwaarden scrapen mag verbieden. Een scraper mag dat dan niet doen (hoewel nog een open vraag is óf een scraper gebonden is aan die voorwaarden).

Die uitspraak is civiel recht, contractenrecht om precies te zijn. Als een scraper in strijd handelt met de voorwaarden, pleegt ze contractbreuk en moet ze de schade vergoeden. Maar dat is juridisch iets heel anders dan strafrecht, waarbij je boetes of celstraf krijgt.

Van het misdrijf computervredebreuk (art. 138ab Strafrecht) is sprake als je opzettelijk en wederrechtelijk binnendringt in een computersysteem. Het is niet vereist dat je een beveiliging kraakt; genoeg is dat je weet dat je niet mag zijn waar je bent.

Echter, bij scrapen kom je nergens waar je niet mag zijn. Je vraagt data op die openbaar en welbewust toegankelijk is gemaakt. Er worden geen URL’s geraden of speciale queries gedraaid die eigenlijk niet de bedoeling zijn. Het gebruik van die data is niet de bedoeling, maar dat gebeurt een stap later. Daarom zie ik dit niet als strafbaar feit.

Arnoud

17 reacties

  1. Echter, bij scrapen kom je nergens waar je niet mag zijn. Je vraagt data op die openbaar en welbewust toegankelijk is gemaakt.

    Is een robots.txt die een scraper de toegang ontzegt dan voldoende? Is dat equivalent aan een bordje verboden toegang voor onbevoegden ophangen. Immers de scraper weet op dat moment (of zou moeten kunnen weten) dat hij ergens is waar het verboden voor hem is.

    1. Ik zou ‘graag’ “ja” zeggen. Maar nee; de robots.txt is denk ik slechts een verzoek waar de crawlers die je graag langs ziet komen zich aan houden. Maar als IT-er weet je ook dat je iets wat je niet gedeeld wilt hebben niet moet publiceren.

      1. Het is inderdaad geen verplichting maar als Arnoud stelt dat “het genoeg is dat je weet dat je niet mag zijn waar je bent” dan lijkt het me dat het voldoende is dat je dat in een robots.txt kenbaar maakt.

        Voor een algemene crawler zal dat in mindere mate gelden maar een scraper bouw je over het algemeen specifiek op een website en dan kan je verwachten dat robots.txt minder vrijblijvend is.

        Anders gesteld: Stel mijn site wordt gescraped door een bot die ik expliciet de toegang ontzeg in robots.txt. Ik kan ook aantonen dat de bot robots.txt heeft opgevraagd. Is het dan niet aantoonbaar dat de bot op een plek is waar hij niet zou mogen zijn? Immers ik kan aantonen dat hij het bordje verboden toegang heeft gezien.

        Voor het geval dat de bot het wel heeft gelezen maar het niet snapt, kan je je als analfabeet beroepen op je ongeletterdheid als je een bord negeert?

        1. Stel, als ik zelf een scraper zou bouwen voor een jouw website, en ik daar ook in zou meenemen (lees: “vergeten” in te bouwen) dat hij niet eerst op zoek gaat naar de robots.txt, en deze dus niet opvraagt; dan kan niemand mij verwijten dat ik mogelijkerwijs had kunnen weten dat ik ergens niet had mogen komen. Of ben ik dan nalatig geweest omdat ik had kunnen controleren waar ik niet mocht kijken?

          Dat geldt trouwens ook voor die algemene voorwaarden waarin ze mogelijk scrapen kunnen verbieden, kan ik daar aan gehouden worden als ik ze niet gelezen heb? Dat werpt bij mij meteen de vraag op; is scrapen hetzelfde als lezen? Scrapen lijkt mij meer het domweg kopieren van data, niet het tot mij nemen van informatie. Als ik vervolgens van selectieve stukjes data weer informatie maak en die op mijn eigen site gebruik, heb ik nog steeds die voorwaarden niet gezien, laat staan gelezen.

      2. Het lezen van een bord is ook geen verplichting… Toch kunnen de regels er op nog steeds van toepassing zijn. (Zoals huisregels in een stenen gebouw.) En op zich kan de robots ook in de HTML staan.

        Maar heeft robots al een uitbreiding zoals <meta name=”robots” content=”noindex,nofollow,noscrape“> ?

  2. Het gebruik van die data is niet de bedoeling, maar dat gebeurt een stap later.

    Staat er ergens dat het om een geautomatiseerde verwerking moet gaan? Zo niet, dan heeft de aanbieder van de website effectief verboden dat mensen naar die site kijken en iets met de data daarop doen, of op basis daarvan handelen. Ingeval van Ryanair zou ik (als persoon) dan dus niet een aanbieding mogen bekijken en besluiten dat ik verder kijk omdat ik de aanbieding niet interessant genoeg vind. Daarom lijkt het mij dat scrapen niet te verbieden is; komt het uberhaupt wel door de giegeltoets: iemand die een website publiekelijk aanbiedt maar verbiedt om te handelen op basis van de getoonde gegevens? Heel zwart-wit zou ik dan dus niet de getoonde aanbieding mogen bestellen als deze mij bevalt 🙂

  3. Er worden geen URL’s geraden of speciale queries gedraaid die eigenlijk niet de bedoeling zijn.

    Hier ben ik het niet helemaal mee eens, omdat nummers in een URL een sequentie kunnen aanduiden. Dus als je een foto1.jpg op een site vindt dan kan een scraper met eenvoudige intelligentie ook even kijken of er een foto2.jpg (e, 3, 4, 5, enz.) op dezelfde site staat. En namen van dagen en maanden plus jaartallen kunnen ook door schrapers worden herkend en gebruikt om andere pagina’s mee te vinden. Maar dan doe je al snel meer dan alleen schrapen. Waar ligt dan eigenlijk de grens?

    1. Die discussie hebben we ook al eens gehad toch? Een nmmertje in een URL ophogen ongeautoriseerde toegang noemen is nog steeds belachelijk.

      Ik doe dat al jaren, vooral bij sites waar je veel moet scrollen voor een next knop, is de url aanpassen een stuk efficienter. Als ik dan het nummertje 1 te ver verhoog en een pagina krijg die nog niet gelinkt was, dan ben ik op eens een crimineel?

      Als je niet wil dat er toegang tot iets is, dan zet je het achter een wachtwoord. Als een url zonder authenticatie is op te vragen door deze gewoon in de adres balk in te tikken, dan is de URL openbaar en heeft het met hacken niets te maken.

  4. Hoe kom je zonder scrapen in Google of een andere zoekmachine terecht? Volgens mij willen de meeste websitebeheerders dat nu juist wel. En als we een level playing field willen, eerlijke concurrentie, of een open markt, en ook niet willen discrimineren dat moet je de ander toch gunnen wat je de één toestaat.

    En een onderdeel van vooruitgang is toch automatiseren, waarom zou je een website alleen met je ogen mogen lezen en met je eigen geest analyseren en niet met je eigen IOT dingetje.

    Altijd raar gevonden dat bijv. Tweakers de ene zoekmachine wel toestaat en de andere niet. Moet dat niet ergens in hun voorwaarden staan?

    Waarom is dat eigenlijk geen ongewenste handelspraktijk of aantasting van de netneutraliteit, (in ruimere zin). Het leidt toch tot minder concurrentie, en versterkt daarmee de machtspositie van andere zoekmachines (lees Google), is dat maatschappelijk gewenst?

    Of is dit onderdeel van Poetintje pesten, en is alles uit Rusland ongewenst.

    ...
    User-Agent: Yandex
    Disallow: /
    User-Agent: YandexBot
    Disallow: /
    ...
    

    1. Waarom zou je als website iets toegang moeten geven waar je niets voor terug krijgt en alleen maar resources kost? Zodra Yandex met een Nederlandse variant komt, zullen ze het waarschijnlijk wel aanpassen maar tot die tijd is er geen enkele reden om daar je resources aan te verspillen.

      Ik blokkeer ook heel veel bots, en zeker de bots die zich niet netjes gedragen. Ik zie niet in wat daar niet eerlijk aan is.

      1. Door de één iets toe te staan en de ander iets te verbieden, discrimineer je toch?

        Waarom misdraagt Yandex zich? Hoe kan Yandex nou met een Nederlandse variant komen als het geen pagina’s in Nederland kan indexeren?

        Wat verdient een website als ik het uitlees met wget?

  5. Maar houden Yandex en anderen zich hier ook aan? Wat wil/kun je er aan doen als ze je robots.txt negeren of gewoon met een programmaatje (eventueel met wat random timing) je site scrapen? Hoe detecteer uberhaupt of je gescrapet wordt, zonder het gebruikersgemak van je site te verlagen?

    PS ik reageerde op NP, maar dat lijkt weggevallen…

    1. Voor web developers zijn er nog veel mogelijkheden om bepaalde robots gewoon te blokkeren, hoor. Het vereist alleen extra code, die overbodig zou moeten zijn als de bots zich aan de regels zouden houden.

      Eerst en vooral wordt iedere pagina request vergezeld van een ‘user agent’ die de client-software identificeert. Als deze verwijst naar een te blokkeren robot dan blokkeer je gewoon de inhoud. De bot moet dan een normale browser nabootsen en dat is al enigszins twijfelachtig.

      De tweede optie is door middel van IP-adres blokkades. Komt de bezoeker bijvoorbeeld van 192.168.0.1 dan blokkeer je deze en anders laat je hem toe. Dit is de meest effectieve oplossing tenzij een compleet botnet wordt gebruikt. Maar als je via andere methodes automatisch kunt bepalen welke IP adressen aan bots hangen dan kun je de lijst van te blokkeren adressen ook automatisch verder uitbreiden.

      De derde optie is door de referer uit te lezen uit de request en dit laatste doen diverse sites om de afbeeldingen te beschermen tegen hotlinking. Als de referer niet verwijst naar de juiste (voorgaande) pagina dan wordt ook de request geblokkeerd. En dat laatste is een handig trucje om veel robots te omzeilen omdat de bots de referer vergeten of de verkeerde referer doorgeven.

      En ten slotte kun je ook bijhouden hoe snel de bezoeker door de site heen bladert. De meeste bots bladeren veel sneller door een site dan de gemiddelde gebruiker dus een bezoeker die 60 pagina’s per minuut uitleest is zeer waarschijnlijk een bot. Je kunt dan even een verificatie-pagina toevoegen die normale gebruikers waarschuwt dat ze te snel bladeren zodat ze langzamer aan doen. Bots kunnen dat niet lezen en dan POEF! Verbannen.

      Die laatste optie werkt redelijk goed en zal normaal gebruik niet in de weg zitten maar de meeste bots wel snel opvangen. Je kunt daarnaast ook bijhouden hoeveel pagina’s de gebruiker opvraagt, waarbij grote aantallen requests weer verdacht zijn. Ook verdacht is het als de bezoeker iedere dag opnieuw steeds dezelfde pagina opvraagt.

      Maar…

      Het probleem van deze schraap-detecties is dat je dus gegevens moet verwerken van je bezoekers. Vooral de laatste methode analyseert het gedrag van de diverse bezoekers en dat zijn al snel persoonsgegevens. Je kunt stellen dat het een technologische noodzaak is tegen webschrapers maar het gaat al snel richting twijfelachtige data-verzamelingen…

      1. Al die zaken, user-agent, referer,ip-adres zijn eenvoudig te spoofen/omzeilen. En zolang browser-fingerprinting niet bij de wet verboden is, ook nog aan te raden.

        Wat zijn dan de regels waaraan het zich moet houden, IOT is toch juist dat we dingetjes op internet inzetten om ons het werk uit handen te nemen, waarom mag dat dan niet het lezen van een website zijn? Mijn persoonlijk IOT-dingetje handelt in mijn opdracht, en vergaart en veredelt informatie voor mij. Natuurlijk trekt het zich niks aan van robots.txt, ik ben toch geen robot.

        Mensen met een elektrische rolstoel laat je toch ook toe, zelfs als mijn rolstoel in de toekomst zelfstandig boodschappen kan doen.

  6. Scrapen van een website is geen computervredebreuk. Het is ergens voortdurend rondneuzen waar je op zich toegelaten wordt. Dat kan heel ergerlijk zijn. Stel je voor dat de plaatselijke Blokker voortdurend zou worden overbevolkt door robotjes die namens de Action steeds maar bezig zijn om elk aangeboden artikel op prijs, kwaliteit, enz. te inspecteren. Dat zou zo hinderlijk kunnen worden dat de winkelier een aankondiging bij de deur zet: van harte welkom in mijn winkel, behalve als u robot bent. Of zelfs: behalve als u hier binnenkomt met als doel alles te inspecieren om aan iemand anders rapport uit te brengen. Zo’n bordje is robots.txt. De winkelier mag zo’n bordje plaatsen en er mensen aan houden, en of mensen er zich vervolgens aan houden is een civielrechtelijke kwestie. Er is geen wet die impliciet zo’n bordje plaatst – niet bij winkels of priveterrein en ook niet bij websites.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.