T-Mobile deelde herleidbare locatiegegevens met CBS voor bouwen van algoritme

T-Mobile heeft jarenlang niet-anonieme gebruikersgegevens gedeeld met het Centraal Bureau voor de Statistiek, meldde Tweakers onlangs. Deze werden gebruikt om een algoritme te bouwen waarmee mensenstromen in kaart werden gebracht. NRC Handelsblad onderzocht een overeenkomst uit 2017 tussen de twee, waarbij het slechts „een pilot-project”, zou zijn waarbij alleen met „geanonimiseerde” gegevens zou zijn gewerkt. Dat blijkt dus niet waar, zo ontdekte de krant met een beroep op de Wet Openbaarheid van Bestuur, die daarmee een verontrustend inkijkje gaf in de manier waarop het CBS en T-Mobile met de privacy van bellers omgingen.

In 2017 ging het CBS een samenwerking met T-Mobile aan. Het doel was een algoritme ontwikkelen dat op basis van de locatiedata van één mobiele provider het mobiliteits- en verblijfsgedrag van Nederlanders kan meten. En dat noemen we dan wel “algoritme” maar het gaat natuurlijk om big data machine learning: gooi een grote bak met data in een opgevoerde versie van Excel en kijk hoe de grafiekjes lopen. En ja, dat werkt alleen met hele grote bergen data, en daarbij moet je per datapunt zo veel mogelijk informatie hebben. Het CBS aasde daarom niet alleen op telecomgegevens, maar ook op „data over betalingen” van banken en op andere informatie, wat je ‘verrijking’ kunt noemen of ‘datagraaien’ afhankelijk van aan welke kant je staat.

In het contract met het CBS staat dat T-Mobile „de methode voor het bepalen van locatiegegevens ook voor eigen doeleinden” mag gebruiken, „zowel tijdens als na de pilot”. Maar geen zorgen, „De data zijn zo privacygevoelig dat als er één partij vertrouwd kan worden om dit te analyseren … dan is dat het CBS”, aldus het businessplan.

En dan val ik van mijn stoel want dan blijkt men het verschil tussen pseudoniem en anoniem niet te kennen. Cruciaal, want de AVG is van toepassing op pseudonieme data – maar niet op anonieme. Dus wat krijg je dan, dat iedereen zegt dat de data anoniem is. Maar ik heb hier een AI die met 95% accuratesse voorspelt dat jouw data niet anoniem is maar alleen gepseudonimiseerd*. En ja hoor: “de unieke IMSI-nummers van mobiele toestellen zijn vervangen door andere nummers.” Dat is klassiek pseudonimiseren en nadrukkelijk niét anonimiseren. Ook niet als die andere nummers random zijn. Met de rest van de data is nog méér dan genoeg analyse te doen om over personen uitspraken te kunnen doen.

Gebruikers werden niet op de hoogte gehouden van de plannen. Wel werd de samenwerking besproken met de toezichthouders, maar daarbij werd niet verteld dat er toegang was tot niet-anonieme gegevens. Het Agentschap Telecom gaat, samen met de Autoriteit Persoonsgegevens, nu onderzoek doen naar het datadelen.

Arnoud * De AI zegt altijd “dit is pseudonimiseren” en dat klopt 95% van de tijd. Waar haal ik mijn VC funding voor deze GDPR Compliance Lawyerbot?

Kun je eisen dat je persoonsgegevens uit een gerechtelijk vonnis worden gehaald?

Het is altijd een goed onderwerp voor verwarring: hoezo persoonsgegevens, dit is toch geanonimiseerd? En dat klopt, als iets geanonimiseerd is dan zitten er (per definitie) geen persoonsgegevens meer in. Maar de grap is: echt anonimiseren dat doet bijna niemand. Wat bijna iedereen doet, heet pseudonimiseren en je blijft dan gewoon onder de AVG vallen. Zelfs de rechtspraak, zoals een recent vonnis laat zien.

In deze zaak had de eiser eerder een rechtszaak tegen Google gevoerd over verbergen van zekere zoekresultaten bij een opdracht op zijn naam. Dat verloor hij, en de uitspraak werd gepubliceerd. Uiteraard conform de anonimiseringsrichtlijnen van de rechtspraak, maar desondanks vond de man het nodig om verwijdering van het gepubliceerde vonnis te vorderen.

Dat roept de vraag op, staan er nog persoonsgegevens in zo’n vonnis dan, als het geanonimiseerd is? Namen worden weggehaald, geboortedata tot jaren teruggebracht en adressen blijven natuurlijk ook buiten schot. Daarnaast worden ook meer indirect identificerende dingen weggehaald, zoals URLs waarin de naam van de eisende partij voorkomt.

Maar wat doe je met persoonlijke informatie in het vonnis zelf? De rechter moet bijvoorbeeld als argument brengen dat weliswaar iemands naam op een website staat, maar dat die vermelding niet onjuist of irrelevant lijkt. Daarvoor moet je in het vonnis de naam noemen en denk ik ook de tekst van de vermelding, anders onderbouw je je analyse niet. Maar dan staat er dus een naam én een tekst die iets over die meneer zegt, in het vonnis.

Nu komen we in een van de vele hoofdpijnstukken uit de AVG. In 2014 bepaalde het Hof van Justitie dat juridische analyses over een persoon an sich wel persoonsgegevens bevatten maar geen persoonsgegevens zijn. Je kunt dus niet bijvoorbeeld een vonnis of beschikking laten corrigeren omdat er een fout in staat (artikel 16 AVG) of laten wissen (artikel 17). Daar zijn eigen procedures voor.

Ik zeg eerlijk dat ik hier helemaal niets van snap; een juridische redenering dat ik een strafbaar feit heb gepleegd (om eens wat te noemen) lijkt mij evident een persoonsgegeven want er staat in dat ik een oplichter ben. Dat ik dat niet mag corrigeren of verwijderen, volgt gewoon uit de systematiek van de AVG – het is niet fout en niet irrelevant of overdadig of zo. Maar goed, het Hof heeft het gezegd en het Hof heeft per definitie gelijk.

De beschikking (de uitspraak in een verzoekschriftprocedure) is dus geen persoonsgegeven en kan niet worden verwijderd op grond van de AVG. Mogelijk kan dat wel gelden voor specifieke feitelijke stukjes:

In het hiervoor onder 4.6. genoemde arrest heeft het HvJEU immers overwogen dat de gegevens die de feitelijke basis vormen voor de juridische analyse persoonsgegevens in de zin van de Richtlijn persoonsgegevens kunnen zijn. De omstandigheid dat die feitelijke gegevens in een rechterlijke beslissing door de rechter worden vastgesteld conform de regels van het procesrecht maakt niet dat van persoonsgegevens geen sprake meer is.
De verzoekster had echter haar bezwaar vooral gericht op de juridische delen van de beschikking, en daar geldt dit argument dus niet bij. Maar inderdaad zitten er dus wel degelijk persoonsgegevens in geanonimiseerde vonnissen.

Arnoud

Sinds wanneer zijn gehashte MAC-adressen persoonsgegevens?

hashcodesDe Verkeersinformatiedienst (VID) volgt al jarenlang de bewegingen van miljoenen auto’s op de weg. Deze data zijn geen persoonsgegevens en niet herleidbaar, stelt het bedrijf, maar dat is dubbel onjuist. Dat meldde Computerworld onlangs, op basis van mijn antwoord dat “Hashing is absoluut een privacyvriendelijke oplossing, maar daarmee blijven de data nog steeds persoonsgegevens, ze zijn immers niet onherleidbaar geanonimiseerd”. Maar, zo mailden veel mensen me: een hash is toch niet meer tot een persoon te herleiden, je weet niet meer wie het is, hoezo is het dan nog steeds een persoonsgegeven?

Vaak wordt gedacht dat een gegeven pas een persoonsgegeven is als je weet om wie het gaat. Er zou een naam of contactgegevens nodig zijn, en zolang je die maar niet hebt, zou er niets aan de hand zijn. Dit is echter onjuist en wel hierom, zoals dat heet.

Een persoonsgegeven is volgens de wet een gegeven dat direct of indirect tot een persoon te herleiden. Als je iemands naam of contactgegevens hebt, dan heet dat “direct herleidbaar”. Maar heb je die niet, maar zegt wat je hebt wel iets over een persoon, dan is het indirect identificeerbaar en dus alsnog een persoonsgegeven. “Die man met de hoed daar achterin” is dus net zo goed een persoonsgegeven als “Wim ten Brink”.

Ik vind dat niet meer dan logisch: een naam is niet perse een groter privacyprobleem dan een IP-adres. Sterker nog, ik denk dat ik vaker gevolgd/gemonitord wordt via mijn IP-adres dan via mijn voor- en achternaam. En de regels over persoonsgegevens zijn gemaakt om te zorgen dat dergelijke privacyproblemen verminderd worden. “Geen naam = geen persoongegeven” zou dan een maas in de wet zijn waar een Google Modular Data Center doorheen kan.

De Artikel 29-werkgroep, het samenwerkingsverband van privacytoezichthouders, heeft dit al in 2007 gesignaleerd in haar Advies over het begrip ‘persoonsgegeven’. In de context van medisch onderzoek worden patiëntgegevens vaak gepseudonimiseerd (“patiënt X123”), maar dat is niet genoeg: dat gegeven gaat over één patiënt en is dus nog steeds een persoonsgegeven. Althans, als het redelijkerwijs mogelijk is om die gegevens terug te herleiden:

Zijn de gebruikte codes uniek voor elke persoon, dan doet het risico van identificatie zich voor als het mogelijk is de encryptiesleutel te achterhalen. Het risico dat de systemen door een buitenstaander worden gekraakt, de waarschijnlijkheid dat iemand binnen de organisatie van de verzender (ondanks het beroepsgeheim) de sleutel ter beschikking stelt en de haalbaarheid van indirecte identificatie zijn dus allemaal factoren waarmee rekening moet worden gehouden om te bepalen of de betrokkenen kunnen worden geïdentificeerd met alle middelen waarvan mag worden aangenomen dat zij redelijkerwijs door degene die voor de verwerking verantwoordelijk is dan wel door enig ander persoon in te zetten zijn, en of de informatie dus als “persoonsgegevens” moet worden beschouwd.

Een hash functie is ook een “encryptie” in de zin van deze analyse. Een hash is weliswaar niet omkeerbaar, maar je kunt wel met een nieuwe invoer kijken of deze dezelfde hash geeft. Dus het probleem is hetzelfde.

Zoals het Cbp het zegt in haar richtsnoeren beveiliging van persoonsgegevens:

Het toepassen van cryptografische bewerkingen op identificerende gegevens leidt op zichzelf tot pseudonimisering (het identificerende gegeven wordt vervangen door een ander identificerend gegeven) en niet tot anonimisering (de gegevens worden omgezet naar “een vorm die identificatie van de betrokkene feitelijk niet langer mogelijk maakt”84[1]).

Dit betekent dus dat persoonsgegevens hashen er niet voor zorgt dat je onder de Wbp uit komt.

Maar er is een sprankje hoop: dat je onder de Wbp valt, wil niet zeggen dat je dus toestemming moet vragen aan iedereen. Er is die uitzondering voor de eigen dringende noodzaak, en daarbij moet je een afweging maken of de privacy van de betrokkenen zwaarder weegt of niet dan jouw noodzaak. Onderdeel van die afweging is hoe makkelijk of moeilijk het is om mensen te identificeren (direct of indirect). Dus als je werkt met hashes dan zit je eerder aan de goede kant dan wanneer je met blote IP-adressen of e-mailadressen gaat werken.

Wél zit je vast aan alle andere regels uit de Wbp, zoals het moeten geven van inzage, het uitleggen wat je doet en het omgaan met een verwijderverzoek.

Arnoud