Volgens mij bestaat “echt geanonimiseerde data” helemaal niet bij locatiedata, maar goed

| AE 11846 | Privacy, Regulering | 12 reacties

De Algemene verordening gegevensbescherming (AVG) is niet van toepassing op echt geanonimiseerde data, las ik bij Security.nl. Deze citeert de Europese privacytoezichthouder (EDPS) die daarmee reageert op plannen van de Europese Commissie om mobiele locatiegegevens in de strijd tegen het coronavirus te gebruiken. Het punt is namelijk dat locatiedata van mensen geldt als persoonsgegevens, maar dat je wel die data grootschalig nodig hebt om een goede analyse te doen over verspreidingspatronen en dergelijke. En ja, in de AVG staat dat anonieme gegevens geen persoonsgegevens zijn. Maar het is vrijwel onmogelijk om data echt te anonimiseren. En wie denkt dat hij daarmee bezig is, is vrijwel altijd stiekem aan het pseudonimiseren.

Doel van de gegevensverzameling is verspreidingspatronen van het coronavirus in kaart te brengen. Omdat veel mensen rondlopen met mobiele telefoons, en telecomoperators daarmee in detail van de hele Europese bevolking de gangen kunnen reconstrueren (excuses als u zich nu in de koffie verslikt) is het voor de bestrijding van corona zeer nuttig om deze informatie te verkrijgen. Maar dergelijke gegevens zijn – terecht – in de AVG als persoonsgegevens aangemerkt, en kunnen dus niet zomaar even bijeengeharkt in een mega-Excel bestand (pardon, “in een big data cluster”) worden voor wat dan ook.

De EDPS is de toezichthouder op het equivalent van de AVG voor de Europese instanties. Deze heeft dus een advies uitgebracht dat zegt dat het mag als de data maar écht anoniem is. Want in de AVG (en in dat EU-equivalent) stat dat data die echt anoniem is, geen persoonsgegeven meer is. Nogal wiedes: data is echt anoniem als hij totaal niet meer tot een persoon te herleiden is, en dat is dus precies het tegenovergestelde van de definitie van een persoonsgegeven.

Het punt is natuurlijk dat het vrijwel onmogelijk is om zoiets te doen. Ja, natuurlijk denkt u meteen aan het weghalen van namen en 06/IMEI/sim-nummers maar dát is onder de AVG echt niet genoeg. De AVG noemt dat pseudonimiseren, je vervangt dan een naam door een zelfgekozen label. Maar dat is niet hetzelfde als anonimiseren, want je hebt dan nog steeds een gegeven over een persoon. Je weet alleen niet meer hoe die persoon heet (of je kunt hem niet meer bellen), maar het is nog steeds data over die persoon.

De EDPS geeft niet aan hoe dit probleem op te lossen. Ik zit er zelf ook best wel mee, volgens mij is het hier fundamenteel onmogelijk. Natuurlijk, geaggregeerde patronen zijn anoniem (want gaan niet over individuele personen) maar om die te maken moet je eerst de persoonsgebonden brondata hebben. En tot dat punt zit je dus gewoon met de AVG als telecomoperator. Het enige wat ik kan bedenken is dan ook dat die operators de bronbewerkingen doen en de Europese instanties vanaf daar verder gaan. Maar dat lijkt me minder effectief dan dat één organisatie direct (en alleen voor dit doel) met álle data aan de slag kan.

Arnoud

Deel dit artikel

  1. Zouden aantallen (per provincie of regio) van mobieltjes die zich per dag niet buiten een gebied van 1KM2 komen, niet buiten een gebied van 10KM2 komen, etc voldoende kunnen zijn? Dan heb je puur getallen die zeggen hoeveel mensen zich verplaatsen, terwijl je niet weet wie zich ophoud in welk specifiek gebied. Volgens mij is dit geen persoonsgegeven meer omdat het niet meer over individuen gaat, maar over iedereen binnen een groot gebied.

    • Inderdaad. Toen ik anderhalve week geleden (?) voor het eerst het idee hoorde om telefoongegevens te gebruiken, werd erbij gezegd dat het doel was om vroeg te zien of er een samenscholing was, zodat de overheid dit snel kon stoppen door het strand/park/natuurgebied te sluiten. Daarvoor hoeven de telecomproviders bijvoorbeeld alleen maar door te geven als er meer dan 30 telefoons er op een strand/park/natuurgebied zijn, en dat kan volkomen anoniem zijn, en nuttig voor handhaving van het samenscholingsverbod.

  2. Voor aggregatie bestaan redelijk goede wiskundige technieken. In basis komt het er op neer dat er niet 1 maar meerder (zeg 3) centrale verzamelaars zijn, en dat ik dan niet “breedtegraad=52” doorstuur naar eentje, maar “breedtegraad=-5” naar #1, “breedtegraad=”+80” naar #2 en “breedtegraad=-23” naar #3, en dat ik niet dezelfde identifier gebruik. Individueel hebben ze geen idee wie ik ben en waar ik zit, maar tezamen kan je nog best wel enige wiskundige bewerkingen doen, zoals het gemiddelde van een groep mensen uitrekenen.

    En dan denk je wellicht “daar heb ik toch niet zo veel aan, als ik alleen het gemiddelde kan berekenen?”, of “dat is toch gevoelig voor een hacker die naar alledrie de servers breedtegraad=-90 opstuurt?” Tot mijn verrassing bestaan er technieken die meerdere wiskundige operaties toestaan, en die ook nog betrouwbaar blijven als tot 50% van de input onbetrouwbaar is.

    Het enige nadeel. Ik kan het je niet uitleggen. Ik neem aan dat er gebruik wordt gemaakt van secure multiparty computation. Als je de details wil hebben, lees bijvoorbeeld “Prio: Private, Robust, and Efficient Computation of Aggregate Statistics” van Corrigan-Gibs en Boneh. Ik heb een praatje ooit gevolgd, maar geef toe dat ik moest afhaken bij de wiskunde in de tweede helft.

      • Ik ken het praatje ja, en zeker bijzonder interessant. Voor zover ik (en ik zeg niet dat ik het inhoudelijk volledig begrijp, ik sta er voor open om gecorrigeerd te worden) weet echter is dit voor het gewenste doel niet een geschikte methodiek. Het doel is hier namelijk het voorkomen van besmetting die ontstaat als mensen op hetzelfde moment binnen een geringe afstand van elkaar komen. Als tien man allemaal verspreid op een voetbalveld staan is er niets aan de hand; als ze met z’n tienen in de kleedkamer zitten wel. Als tien mensen dezelfde supermarkt binnen stappen waar een uur geleden een besmet persoon is geweest is er ook weinig aan de hand. De data die je dus nodig hebt moet een zekere, en vrij hoge, mate van precisie hebben voor zowel de locatie alsmede de tijd; aan statistisch nauwkeurige gemiddelden achteraf heb je weinig. Ter plekke op het moment zelf ingrijpen door een stel ambtenaren naar bijv een stadspark of zo te sturen om mensen te manen naar huis te gaan is er helemaal niet bij met deze methode.

        Ik vrees dan ook dat autoriteiten aan echt geanonimiseerde data vrij weinig hebben, hoogstens voor analyse van de verspreiding achteraf of om academische redenen. Voor het voorkomen van verspreiding helpt het niet.

  3. Als het louter het bijhouden is waar er met iemand contact geweest is op het lokale device, zie ik het als mogelijk maar verre van triviaal. (Abstractie makend van het feit dat de meeste -of quasi alle- devices niet veilig zijn. en deze devices een werkende bluetooth (bereik tot een 10 meter) hebben en voldoende opslagmogelijkheid) Ik heb nog geen oplossing gezien die nog maar in de buurt komt.

    Bovendien vraagt het broadcasts naar iedereen van alle mogelijke besmette contacten naar iedereen die zich op een -ruime- regio geabonneerd heeft (haalbaar met een zeer grote “webpagina” die 1 keer per dag bekeken wordt). –> wel veel extra trafiek als er wat besmettingen zijn. Er moet ook voor gezorgd worden dat er geen zijdelingse lekken zijn, bv. door het opvragen van een kaart van de locatie na de melding. Dat zijn dan nog maar de vanzelfsprekendheden, het gaat veel verder. –> Dit is een zeer moeilijke opgave, maar de top crypto specialisten zijn deze zaken gewoon en zullen dit wel kunnen oplossen en onderzoeken. (reken wel op de een deftige kostprijs en lange doorlooptijd voor er enige zekerheid is)

    Alleen zijn noch android noch iOS hier veilig genoeg voor.

    Bovendien lost het niets op: Je zit in het OV te wachten aan een verkeerslicht en ernaast wacht een fietser die later besmet blijkt te zijn… Iemand gebruikt het OV tijdens de spits (eerst met de bus naar station A, dan met de trein naar station B in een grote stad, dan nog eens met de tram en ‘savonds omgekeerd) en gaat winkelen in een wat grotere supermarkt. Na 5-10 dagen blijkt die besmet te zijn. Met een cirkel van een kleine 10 meter denk ik meer dan 10.000 contacten.

    De gevolgen van geïntroduceerde stress zullen hoger zijn dan deze van de eventuele nieuwe besmettingen. Bovendien zullen slimme mensen ze niet installeren of deze zetten hun slimme telefoon regelmatig af (als ze er al één courant gebruiken).

  4. Je stelt dat het vervangen van een mei nummer door wat dan ook anonimiseren zou zijn. Als ik de GDPR doorwerk gebruiken ze voor dat soort bewerkingen pseudonimiseren. Voor het aggregeren op een niveau dat een persoon onherkenbaar niet meer te herleiden is het woord anonimiseren. Een discussie wanneer iets nu anoniem is wort lastig als je de betekenis van een woord variabel laat zijn.

Laat een reactie achter

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren en <em> en <strong> voor italics en vet.

(verplicht)

Volg de reacties per RSS