Scrapen van informatie op internet is in vrijwel alle gevallen illegaal, stelt de Autoriteit Persoonsgegevens. Dat meldde Tweakers gisteren. De toezichthouder bracht een ‘handreiking‘ uit over ‘scrapen’ van ‘data’ op ‘internet’, en getuige mijn inbox waren velen onaangenaam getroffen door de strekking.
De basis lijkt me niet controversieel: wie profielen op sociale media en andere dergelijke data binnenharkt, zal gewoonlijk persoonsgegevens verwerken en moet zich dan aan de AVG houden. Dat betekent dus dat je die mensen moet melden dat je hun gegevens binnenhaalt en ze gelegenheid moet geven te protesteren en/of correcties dan wel verwijdering te laten uitvoeren.
De insteek van de AP is echter fundamenteler: het is “bijna altijd illegaal”. Daarmee bedoelen ze “rechtmatig” (art. 5(1)(a) AVG), wat ze dan baseren op drie specifieke problemen:
- grondslagen en doelbinding
- bijzondere persoonsgegevens
- strafrechtelijke persoonsgegevens
Die grondslag zal vrijwel altijd het “eigen gerechtvaardigd belang” (art. 6(1)(f) AVG) zijn van de partij die de gegevens binnenharkt. En dan komen we bij het eigenlijke punt dat de AP wil maken: een “zuiver commercieel belang” mag niet tellen als “belang” in de zin van de AVG. Daar is inderdaad al de nodige herrie over geweest en de zaak ligt nu voor bij het Hof van Justitie.
De AP stelt zich op het standpunt dat iets alleen als “belang” kan tellen als het tot een wet te herleiden is. En “zuiver commercieel handelen” staat nergens in een wet en dus is het geen belang onder de AVG. Ik heb daar enorme moeite mee, gezien het feit dat artikel 16 Handvest de “vrijheid van ondernemerschap” expliciet erkent. Geld willen verdienen is dus een grondrecht en daarmee een rechtens te respecteren belang. Daarnaast is er de vrijheid van informatie (art. 11 Handvest), die ook toeziet op het binnenharken van informatie. En je oogmerk doet er niet toe; informatievrijheid geldt ook voor bedrijven.
Dat wil natuurlijk niet zeggen dat alles mág als je Eurotekens er achter zet. De belangenafweging van de AVG is nadrukkelijk in het voordeel van de betrokkenen geformuleerd. De handreiking gaat hier niet verder op in, maar adviseert mensen om “zorgvuldig” na te denken wat de afweging moet zijn. Wel noemt men een aantal factoren, zoals omvang van de dataset en op welke criteria deze doorzoekbaar is: een statistisch model met algemene uitspraken is iets heel anders dan een kopie van geheel Nederlands Linkedin waar je op persoonsnaam in zoekt.
Dit haakt in op de twee andere factoren: het is goed mogelijk dat je ook bijzondere persoonsgegevens (zoals etnische afkomst, seksuele voorkeur of religie) meeharkt of zelfs de vaak vergeten strafrechtelijke persoonsgegevens. En dat is echt problematisch, omdat je als harker eigenlijk nooit een legitieme reden hebt om dat te doen.
De AP trekt daarbij een harde lijn, die volgens mij de enige juiste is:
Slaat u zowel gewone als bijzondere persoonsgegevens op in één database, dan is het beschermingsregime voor bijzondere persoonsgegevens van toepassing op alle gegevens in deze database. Kunt u niet uitsluiten dat u (ook) bijzondere persoonsgegevens verwerkt? Dan geldt het (zwaardere) beschermingsregime voor bijzondere persoonsgegevens.Hierbij geldt dat alleen een actieve handeling van de betrokkene zelf als excuus kan gelden. Een voorbeeld: op Linkedin kun je je voornaamwoorden instellen. Daaruit kun je een seksuele gerichtheid afleiden, wat dus problematisch is maar omdat dit een actieve en bewuste keuze is (je hóeft het niet te doen) valt dat buiten het verbod.
De uitspraak dat het “bijna altijd illegaal” is, is dus vooral gebaseerd op het gegeven dat je bijzondere persoonsgegevens verwerkt en dat je daarbij niet kunt zeggen dat men dit alles zelf openbaar gemaakt heeft. De AP merkt in de handreiking zelf al op dat hier redelijkerwijs vraagtekens bij te stellen zijn en dat alleen het Hof van Justitie die kan beantwoorden. Het is dus wel nogal een aanname die hier wordt genomen.
Een meer algemeen bezwaar is de juistheid. Naast dat je mensen moet informeren dat jij hun gegevens binnenhaalt (ja, dat moet jij doen en wel actief, dus met een mail of pb), moet je mensen gelegenheid geven hun gegevens te corrigeren. Je zal net gehackt zijn en een cryptoscam op je Facebook krijgen op de dag dat zo’n hark langskomt: dan zullen toekomstige werkgevers je nog lang associëren met dubieuze cryptoverkoop.
Ik zie de handreiking alles bij elkaar vooral als een signaal: er is nog héél veel cowboygedrag in dataharkland, en dat moet maar eens afgelopen zijn. Als jij je processen op orde hebt, weet welke data je binnenhaalt en waarom, bijzondere gegevens wegfiltert en zorgt voor transparantie (inclusief rechten uitoefenen), dan is er verder weinig aan de hand. Als.
Leuk detail nog: wie een AI bouwt die op basis van dataharken is getraind, moet in zijn conformiteitsverklaring (Annex V AIA) expliciet verklaren volledig AVG compliant te zijn. Een aansprakelijkheidsbeperking is daarbij niet mogelijk, en onder de binnenkort te verwachten AI Liability Directive geldt zelfs een omgekeerde bewijslast. Inkopers van AI kunnen dus sturen op dit logo.
Arnoud
Wat betekent dit voor erfgoedinstellingen die via harvestingtools websites kopiëren en opnemen in hun collecties (zeg maar archiveren)?
Het zou de AP sieren als ze de daad bij het woord zouden voegen en hun medewerkers verbieden om zoekmachines e.d. te gebruiken.
Scrapen is niet hetzelfde als indexeren.
Scrapen is voor mij het langs onofficiële weg binnenhalen van andermans content, en daar de ‘restjes’ opmaak van af schrapen, zoals kopjes uit H1 tags vissen en content ontdoen van
tags en CSS/JS rommel. (Een RSS feed lezen is een officiële weg.)
Waarom voldoet Googles indexatieproces niet aan die omschrijving van scrapen?
Als je scrapen zo omschrijft dan voldoet Googles indexatieproces daar wel aan ja, maar ik denk dat die omschrijving incompleet is omdat het verder gaat dan alleen restjes opmaak er vanaf halen.
Scrapen is, zoals ik het zie althans, een proces dat verder gaat dan alleen indexeren. Het basisidee van indexeren is dat je een index hebt waarmee je iemand die een zoekopdracht doet kan verwijzen naar de plaats waar die data te vinden is. Als je gaat scrapen dan ga je diezelfde sites langs, maar haal je die data binnen en die ga je herstructreren, ordenen, mogelijk verrijken met andere data om zo een dataset te vormen die economische waarde heeft.
Bij “gewoon” indexeren heb je een database waarin staat waar je informatie over bijvoorbeeld een persoon zou kunnen vinden. Als je zoekt op “telefoonnummer van Piet” dan krijg je een link naar de telefoongids, of naar het linkedin-profiel van Piet. Bij scrapen krijg je een database waarin staat wat het telefoonnummer van Piet is.
Er zit natuurlijk overlap in, maar ik denk dat alle scraping een vorm van indexering is, maar niet alle indexering is scraping, op dezelfde manier waarop alle stoelen meubels zijn maar niet alle meubels stoelen.
Op die manier. Ik had het zo gelezen dat het uitsluitend gaat over het proces van binnenhalen van de informatie. De stappen daarna, zoals hoe je het ontsluit (de Google featured snippets bijvoorbeeld) zijn nieuwe verwerkingen die voor hun rechtmatigheid afhangen van de legaliteit van het scrapen.
Bij belangenafwegingen in het algemeen (ook hier) is het weinig zinvol om een groot, vaag, belang te nemen voor je afweging. Dan kun je makkelijk tot ongewenste uitkomsten komen. Als je het correct wilt doen, neem je het meest concrete/specfieke belang.
Dat is dus in dit geval niet het algemene ‘geld verdienen’, maar ‘geld verdienen door te scrapen’. En dan kom je met de belangenafweging niet ver, en heb je dus geen grondslag: Er zijn immers miljoenen potentiele manieren om geld te verdienen. De persoon die geld wil verdienen (een rechtmatig belang) heeft dus maar een zeer miniem belang bij die ene specifieke manier.
Daar denkt de AG bij het HvJEU anders over in de spiksplinternieuwe opinie in zaak C-446/21 (Schrems-zaak nummer zoveel)
Dat snap ik niet. Ik zeg niet dat je een grondslag krijgt als een bijzonder pg kennelijk openbaar gemaakt wordt, maar dat het verbod van art. 9(1) vervalt en het dus een ‘gewoon’ gegeven wordt. Daar moet je dan nog steeds een grondslag voor verwerking van hebben, en dat is precies wat de A-G zegt in overweging 45 van zijn advies.
In hoeverre is wat Google doet anders dan scrapping? En heeft het Hof van Justitie daarover dan niet al geoordeeld?
Denk bijvoorbeeld aan HvJEU 24 september 2019, C-136/17, ECLI:EU:C:2019:773
Daaruit kun je opmaken dat een zoekmachine weldegelijk het internet mag indexeren, en daarbij bijzondere gegevens mag verwerken, —scrappen?—, als dat nodig is voor (o.m.) de informatievrijheid. Wel moet de zoekmachine, desgevraagd, achteraf en onder omstandigheden overgaan tot verwijdering van persoonsgegevens.
https://curia.europa.eu/juris/document/document.jsf;jsessionid=E809CE4EDF21D851F70AED2AEEB873B1?text=&docid=218106&pageIndex=0&doclang=NL&mode=lst&dir=&occ=first&part=1&cid=2347202
Daaruit:
In dit verband zij eraan herinnerd dat, ten eerste, de activiteit van een zoekmachine, die erin bestaat door derden op het internet gepubliceerde of opgeslagen informatie te vinden, automatisch te indexeren, tijdelijk op te slaan en, uiteindelijk, in een bepaalde volgorde ter beschikking te stellen aan internetgebruikers, moet worden gekwalificeerd als „verwerking van persoonsgegevens” […] wanneer deze informatie persoonsgegevens bevat en, ten tweede, de exploitant van deze zoekmachine moet worden beschouwd als de „verantwoordelijke” voor deze verwerking, in de zin van dat artikel 2, onder d), van deze richtlijn (arrest van 13 mei 2014, Google Spain en Google, C-131/12, EU:C:2014:317, punt 41).
[..] het verbod op, of de beperkingen inzake de verwerking van bijzondere categorieën persoonsgegevens [..] onder voorbehoud van de in deze richtlijn bepaalde uitzonderingen, [zin] tevens van toepassing [..] op de exploitant van een zoekmachine in het kader van zijn verantwoordelijkheden, zijn bevoegdheden en zijn mogelijkheden als verantwoordelijke voor de verwerking die tijdens de activiteit van deze machine wordt verricht, bij een beoordeling die, onder toezicht van de bevoegde nationale autoriteiten, door deze exploitant wordt verricht na een door de betrokkene ingediend verzoek.
[..] de exploitant van een zoekmachine na de ontvangst van een verzoek tot verwijdering van een link naar een webpagina waarop persoonsgegevens die onder de in artikel 8, lid 1 of 5, van deze richtlijn bedoelde bijzondere categorieën vallen zijn gepubliceerd, op basis van alle relevante elementen van het geval en gelet op de ernst van de inbreuk op de in de artikelen 7 en 8 van het Handvest verankerde grondrechten van de betrokkene op eerbiediging van het privéleven en op bescherming van persoonsgegevens, om de redenen van algemeen zwaarwegend belang […] en onder eerbiediging van de in deze bepaling bedoelde voorwaarden, moet nagaan of de opname van deze link in de resultatenlijst die wordt weergegeven na een zoekopdracht op de naam van deze persoon strikt noodzakelijk blijkt ter bescherming van het in artikel 11 van het Handvest verankerde recht op vrijheid van informatie van de internetgebruikers die mogelijk geïnteresseerd zijn in toegang tot deze webpagina via een dergelijke zoekopdracht.
Zie ook:
https://zwenneblog.weblog.leidenuniv.nl/2024/02/01/google-costeja-en-wat-daarop-volgde-in-jbp-select-tien-jaar-jurisprudentie-bescherming-persoonsgegevens/