Hoe kun je optreden tegen een database met 1.2 miljard persoonsgegevens?

Beveiligingsonderzoekers hebben een database gevonden met informatie over 1,2 miljard personen. Dat las ik bij Tweakers. In de database zitten geen gevoelige gegevens zoals creditcardnummers of wachtwoorden, maar wel profielgegevens, telefoonnummers en e-mailadressen. De vondst is opmerkelijk gezien de omvang, en vooral vanwege het feit dat er geen duidelijke dader lijkt te zijn. Het gaat waarschijnlijk om een combinatie van vier databases van dataleveranciers, maar wie deze heeft gemaakt en waarom ze online staat, is een raadsel. Maar wat kun je daar nou mee, AVG technisch?

Het is onder de AVG ten ene male onmogelijk dat ergens ‘gewoon’ persoonsgegevens rondslingeren. Iemand heeft die dataset gemaakt, en dus is er iemand verwerkingsverantwoordelijke voor het geheel. Dat je die niet kunt vinden, is een praktisch probleem bij de handhaving maar dat maakt in principe verder niet uit. Als ooit de maker bekend wordt, dan is die boetewaardig. Ook als het een werknemer was die dit helemaal niet mocht, of als men dacht dat men niet onder de AVG viel.

Ik blijf me verbazen dat er bedrijven als People Data Labs zijn, die dus kennelijk ook hele grote datasets hebben en denken dat de AVG-technisch gewoon kan. Natuurlijk, in de VS mag er veel meer (hoewel de nieuwe Californische wet veelbelovend klinkt) maar dit soort bedrijven valt gewoon onder de AVG, ook al zitten ze fysiek buiten Europese jurisdictie. En nee, het gaat niet helpen dat zij in de contracten keihard zeggen dat dit niet mag.

Dat gezegd hebbende, handhaving is natuurlijk een reëel probleem. Ja, je kunt boetes opleggen (of verboden met dwangsommen) aan iedereen met een kopie van die data, maar je wil eigenlijk de bron aanpakken dat dit nooit meer gebeurt. En dat is lastig als die onbekend is.

Ik denk dat er dan maar één ding op zit: structureel terug de keten in, tot aan desnoods het kleinste individuele webforum waar 100 records vandaan kwamen bijvoorbeeld. En dan die laten uitleggen hoe het kon dat ze die data hebben verstrekt en aan wie, op straffe van hoge boetes. Een enorme klus, dat wel.

Arnoud

10 reacties

  1. Is dit niet beter bij de bron aan te pakken: Met andere woorden, beter toezien op de opt-in van cookies en data verwerking van derden?

    Het gros van deze data zal verzameld zijn door reclame bureaus die gebruikers over het internet volgen en zo profielen opbouwen van elke internet gebruiker. Als we dit willen tegen gaan, kunnen we dan niet beter elke website zonder vrijblijvende opt-in zwaar beboeten. Op dit moment zijn er nog idioot veel Nederlandse websites welke zich niet houden aan de wetgeving, en sommige glanzen op dit moment over de ‘vrijblijvende’ opt-in.

    1. Ruud: “De grote hoeveelheden data zijn waarschijnlijk geaggregeerd van socialemediaprofielen zoals Twitter, Facebook en LinkedIn”. Alleen first party cookies zou daar weinig uithalen.

      Door-zoeken naar ook kleine clubs die bewust data verkopen zou ik helemaal niet erg vinden. Waar dat bewust gebeurt verdienen ze die boete ook (onderbuik: maar niet perse als die “gehackt” zijn of niet snappen wat de consequenties kunnen zijn van niet goed nadenken over privacy en beveiliging icm derde partij ads / scripts / ..) En aangezien hele volksstammen ‘bedrijf@eigendomein.nl’ of ‘naam+bedrijf@gmail.com’ gebruikt, hoeft het vinden er van niet eens heel veel werk te zijn in veel gevallen. Zeg ik zonder de datasets zelf bekeken te hebben, wil ik om allerhande redenen niet 😉

      Maar als ik dat artikel daar zo lees, dan is er toch prima te starten met die grote databoeren zoals People data labs?

      1. Ik ben iemand van zo’n volksstam 🙂 Ik kreeg van haveibeenpwned.com dan ook netjes een mailtje dat er een e-mail adres van mij in deze dataset was gevonden. Dat bleek echter een semi-random adres te zijn dat ik nog nooit zelf gebruikt heb (daar ben ik vrij zeker van) maar wel heel veel spam op ontvang. Mogelijk is er ooit een spamrun geweest die dit adres heeft gebruikt als afzender.

  2. Ik vraag mij af waarom People Data Labs niet verantwoordelijk zou zijn. Immers, ze zijn een soort dataverwerker van privacy-gevoelige data en zullen dan ook stappen moeten ondernemen tegen dit soort misbruik. De DMCA is immers beperkt tot de VS.

    Je zou natuurlijk ook economische maatregelen tegen dergelijke bedrijven kunnen ondernemen. Wat voor sancties zouden dan genomen kunnen worden tegen PDL?

    Dit is overigens waarom honeypot-accounts handig kunnen zijn om de bron van dergelijke infecties terug te kunnen vinden. Zo staat mijn oude LinkedIn adres in deze lijst. Deze was ooit gehackt bij LinkedIn zelf, maar ik heb sindsdien een ander email adres voor LinkedIn in gebruik. (Handig als je je eigen domeinnaam hebt omdat je dan onbeperkt aantal accounts kunt maken!) Ik vermoed dan ook dat diegene die deze lijst heeft samengesteld gebruik heeft gemaakt van dergelijke lijsten met gehackte adressen.

    Tja, ondertussen zijn bedrijven die in het verleden mijn adres ooit hebben doen lekken weer iets groter. Dat zijn dus 500px, Adobe, Cafepress, Disqus, GeekedIn, Apollo, Neopets, Kickstarter, Armor Games, Coupon moms, LinkedIn, Little Monsters, Patreon, Tumblr en enkele andere bedrijven. En dat zijn enkele grote namen die daartussen staan!

  3. IK denk dat dat gehandel met persoonsgevens snel afgelopen is als je niet de keten omhoog gaat, maar juist de dichtsbijzijnde gebruiker van (een deel van) die database aanpakt. De klant van de databaseaanleggers dus.

    Laat maar zien waar die vermeende vrije toestemming vandaan komt….kun je dat niet, dan heb je iets uit te leggen en dan droogt de markt hiervoor wel op.

  4. ”Ja, je kunt boetes opleggen (of verboden met dwangsommen) aan iedereen met een kopie van die data, maar je wil eigenlijk de bron aanpakken dat dit nooit meer gebeurt.”

    Ik vraag mij af hoe dat zou werken. Dat zou een avg-boete zijn omdat je zonder grondslag persoonsgegevens hebt? Is dat al eens voorgekomen? De Autoriteit Persoonsgegevens heeft overigens onlangs aangekondigd dat een GEB verplicht is als je online monitort. Strafrechtelijk kan je er volgens mij niets mee omdat de gegevens openbaar waren. Dus het is geen heling van gegevens.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.