Naar aanleiding van de recente vraag of een klassenfoto privacygevoelig is, kreeg ik diverse opmerkingen onder meer via Twitter:
Net als het getal 098773557 . Want misschien een bsn. Het AVG virus noem ik dat, elk stukje data wordt er uiteindelijk door besmet.
De Privacyverordening als virus, het moet niet gekker worden. Maar ik snap de zorg, want inderdaad kunnen heel wat brokjes informatie persoonsgegevens zijn, zeker met de nieuwe, brede definitie van dat begrip die we vanaf 25 mei gaan krijgen.
Ik geloof onmiddellijk dat het getal 098773557 ergens een persoonsidentificatie is, maar die definitie is echter niet zo breed dat een sequentie van tekens een persoonsgegeven is enkel omdat het ergens gekoppeld zou kunnen zijn aan een persoon.
Waar het om gaat, is of het getal of andere sequentie met redelijke inspanning te herleiden is tot een persoon. Dat hoeft niet perse door jou te kunnen, het gaat erom of objectief gezien die herleiding mogelijk is. Een IP-adres is daarom dus al snel een persoonsgegeven: via de internetprovider is het te herleiden tot de natuurlijke persoon die abonnee is. Dat die provider daar niet snel aan meewerkt, doet er niet toe. Het is eenvoudig genoeg.
Voor mij gaat het mis bij het genoemde getal: ik heb geen idee hoe ik van daar moet komen tot een persoon, op welke wijze dan ook. Dat ergens iemand dat als sleutel in een lijst heeft, zal best – maar hoe weet ik wie die lijst heeft?
Je zou een redelijke aanname kunnen doen dat een groot bedrijf zoals Shell haar personeel personeelsnummers geeft, en dat 098773557 dan een geldig nummer is. Of een CRM-pakket blijkt met dergelijke identifiers te werken, en je weet een aantal bedrijven te noemen die dat gebruiken en dus (zo mag je vermoeden) iemand hebben als klant of personeel met dat nummer.
Dan blijf je echter terugkomen bij het feit dat met dit nummer wel op een of andere manier bedoeld moet zijn om te wijzen naar die persoon. Waar blijkt dat uit? De tweet in dit voorbeeld geeft nergens enige hint van een persoon wiens bsn dit zou moeten zijn. Daarmee gaat de herleidbaarheid dus al heel snel mis.
Als meneer had getwitterd “Net als het getal 098773557 – ID van een klant van me – …”, dan zou ik het misschien wel een persoonsgegeven noemen. Hij kan dan immers het ID herleiden tot die klant, en dat maakt objectief gezien het gegeven inderdaad persoonlijk. Die tweet wordt daarmee dan in feite giftig afval, en je zou hem dan als een datalek kunnen zien.
Specifiek bij zo’n voorbeeld zou je denk ik het getal nog wel mogen retweeten en betrekken in discussie. De informatievrijheid zou in zo’n geval namelijk ook meewegen, en de kans op identificatie en schade is vrij klein, dus in de belangenafweging onder de AVG kom je denk ik al snel bij een rechtvaardiging uit.
Arnoud
Als ik de 11-proef toepas op 098773557 dan klopt die niet. Het kan dus geen BSN zijn.
Het nummer 258841254 in combinatie met de naam ENGELFRIET, Arnoud, zoals getoond op webpagina https://blog.iusmentis.com/2015/11/13/nee-argh-je-kunt-je-niet-uitschrijven-bij-de-nederlandse-staat-mafketel/ zou overigens wel een datalek kunnen inhouden, want dat nummer voldoet aan de 11-proef voor BSN’s (https://nl.wikipedia.org/wiki/Elfproef#Burgerservicenummer).
Tenzij je natuurlijk een ZZP’er bent. Want dan ben je gek genoeg weer verplicht om je BTW-nummer te publiceren, wat gelijk is aan je BSN met ‘B01’ er achter. Waardoor je dus in principe door de Nederlandse wet wordt verplicht om iets te doen wat volgens een andere wet weer onrechtmatig is.
ZZP-ers hoeven slecht in bepaalde gevallen een btw nummer te tonen op de website: https://www.rijksoverheid.nl/ministeries/ministerie-van-financien/documenten/kamerstukken/2013/12/09/bijlage-bij-antwoorden-kamervragen-inzake-btw-nummer-van-zzp-ers
Denk erom dat voor het BSN een aangepaste elfproef geldt, waarbij de laatste factor -1 is. Dit om te voorkomen dat bankrekeningnummers verward met en goedgekeurd als BSN worden (aldus Wikipedia).
(Niet dat het genoemde nummer aan deze aangepaste elfproef voldoet).
258841254 voldoet aan de aangepaste 11-proef voor BSN’s: 9×2 + 8×5 + 7×8 + 6×8 + 5×4 + 4×1 + 3×2 + 2×5 + (-1)x4 = 18 + 40 + 56 + 48 + 20 + 4 + 6 + 10 + (-4) = 198 = 18×11 (rest 0). Maar ik schreef al “zou … een datalek kunnen inhouden”, want ik kan me niet voorstellen dat Arnoud zijn eigen BSN gaat publiceren.
Overigens: hoe zouden we erachter kunnen komen of het echt is? Ja, een BSN is een bijzonder persoonsgegeven, maar als je niet weet van welke persoon, is daar volgens mij, ook niet met redelijke inspanning, achter te komen.
Mijn gedachte zou zijn, als het door de 11-proef komt en het is niet terug te vinden in de boekjes als een standaardvoorbeeld, dan moet je even aan de noodrem trekken. Hoezo heb jij ineens specifiek dat getal te pakken, wat gaat hier mis? Je moet dan naar de context gaan kijken, wordt het gepresenteerd in combinatie met andere gegevens waardoor je zou kunnen denken dat het om een persoon gaat?
Een tweet “Voor klant 258841254 (die ik verder niet ga identificeren) zoek ik…” zou bij mij alarmbellen doen afgaan; dat vind ik een datalek. Nee, we kunnen niet hier en nu deze klant verder identificeren. Maar objectief bekeken kán het, via de administratie van de twitteraar en via de databank van de overheid.
@Arnoud, er klopt iets niet in de IMG tag (enkel quoteje ipv dubbele))
Gunmen we alsjeblieft die onzin dat een ip adres een persoon identificeert eens uit de wereld helpen. Ja, er hangt soms een persoon aan die betaalt heeft voor de verbinding met dat adres. Dat kan je privacy gevoelige informatie vinden, maar het identificeert niemand. NAT bestaat al jaren en en er kunnen letterlijk duizenden apparaten gebruik maken van 1 ip adres. Om nog maar te zwijgen over dat meerdere mensen op 1 apparaat kunnen werken.
Een IP identificeert misschien niet eenduidig de gebruiker, maar bijv. wel wie de ‘eigenaar’ van dat IP is (het is dus wel een persoonsgegeven, alleen niet van de persoon die jij verwacht)
En met een IP kun je vaak wel beperken wie het kan zijn. Een verbinding wordt vaak met slechts enkele personen gedeeld. Met IPv6 kun je met een IP een specifiek apparaat aanwijzen (afhankelijk van enkele instellingen) en mogelijk wordt dat apparaat weer door slechts 1 persoon gebruikt.
Ik twijfel ernstig aan je conclusies over wat IPv6 gaat bieden.
Mijn open WiFi werkt nu met NAT, ‘straks’ deel ik naar behoefte IPv6 adressen uit aan bezoekers. Het zelfde adres zal dan nog steeds aan meerdere apparaten uitgedeeld worden.
Iedere computer in mijn netwerk, muv de servers, zal nog steeds met DHCP een IP adres opvragen, simpelkweg vanwege het gemak. En kan dus een ander adres toegekend krijgen.
Het enige verschil wordt dat veel meer IP adressen tot een abonnement houder te herleiden zijn.
met IPv6 krijg je in de meeste gevallen (dus via SLAAC) Gewoon een IPv6 adres dat voor het eerste stuk bestaat uit een deel dat de afnemer identificeer, en een tweede stuk dat jouw hardware identificeert.
Bij DHCPv6 is het niet veel beter. ook hier word gewoon met het eerste stuk de afnemer te identificeren.
Er zijn wat dingen in IPv6 die je kan aanzetten die het laaste stuk wat anoniemer maken, maar het eerste stuk blijft. (dit eerste stuk word de ‘prefix’ genoemd en is onderdeel van prefix deligation. de primaire manier om ipv6 global routing te doen.
Het kán natuurlijk dat een IP-adres niet direct correspondeert met een specifiek persoon. Maar in de overgrote meerderheid van de gevallen is dat wél zo, zeker straks met IPv6. Je moet die groep IP-adressen behandelen als persoonsgegevens tenzij vaststaat dat het van servers/netwerken afkomstig is, net zoals je kentekens als persoonsgegevens moet zien tenzij je zeker weet dat het bedrijfskentekens zijn.
Volgens deze redenatie is ook een telefoonnummer geen persoons-gegeven (er kunnen meerdere telefoons gekoppeld zijn aan 1 nummer, en er kunnen meerdere gebruikers zijn van 1 nummer).
Is een adres geen persoonsgegeven (immers er kunnen meerdere mensen wonen op een adres.)
Oftewel, Meneer of mevrouw Elroy. je gaat niet alleen te kort door de bocht. Volgens de regels voor een persoons-gegeven (iets dat herleidbaar is tot een persoon) is een IP nummer gewoon een persoonsgegeven. Met dit gegeven (mogelijk in combinatie met andere) is namelijk 1 persoon te achterhalen. Dat dit niet in alle gevallen is doet er niet toe.
Ook zijn samengestelde persoonsgegevens dingen die op zichzelf (ook zonder de andere onderdelen) als persoonsgegeven moeten worden behandeld (dit is nu al vaak zo en straks met de avg zelfs in alle gevallen zo), Dus als er met jouw IP nummer en Tijd-datum gegeven te achterhalen is waar jij was, dan is dat ook een persoons-gegeven (locatie van persoon is een persoonsgegeven).
De regels zijn zo breed opgestelt omdat er pertijen zijn die ze zo breed gebruiken (BigData Analyse door grote supermarkten bijvoorbeeld)
Het is inderdaad soms te herleiden tot een persoon die abonnementshouder is. Het is dan dus een persoonsgegeven dat beschermd moet worden omdat het feit dat die persoon internet heeft beschermd moet worden?
Immers is dat de enige herleiding tot een persoon die je met een IP adres kan doen.
Het fundamentele probleem is dat de wet niet vermeldt wie die identificatie kan doen. Jij en ik kunnen met een IP-adres vaak personen niet identificeren. Eigenaars van websites waarop gebruikers inloggen kunnen dat wel, maar alleen voor IP-adressen waarmee daadwerkelijk wordt ingelogd. Mega-partijen zoals Facebook en Google kunnen het zelfs voor een serieus percentage van de IP-adressen waar mensen mee websurfen, als ze dat willen. Het is heel raar dat de wet doet alsof persoonsgegeven zijn een eigenschap van een gegeven; dat is het niet, het is een eigenschap van de relatie tussen het gegeven en de verwerker van dat gegeven.
Dat van de relatie klopt. Maar de wet wil mensen ook voor de toekomst beschermen. Als bijvoorbeeld iemands NAW-IP koppeling op straat komt te liggen (een datalek, bijvoorbeeld) dan kun je teruggaan en oude informatie alsnog herleiden tot die persoon. Om dat te voorkomen, moeten jij en ik een IP-adres nu al als persoonsgegeven beschouwen.
Dat begrijp ik wel, maar dan weet je dus niet meer waar je moet stoppen.
Misschien zou je hier het onderscheid tussen gegeven en informatie in moeten betrekken. Een gegeven is voor mij: een opgeslagen of verstuurde tekenreeks die bepaalde informatie voorstelt volgens de bij het vastleggen gebruikte interpretatie. (Wikipedia is het hier overigens niet mee eens. Maar ik vind de Wikipedia-omschrijvingen dus fout.) Informatie is wetenschap over de wereld: een of meer uitspraken over wat in die wereld het geval is. Informatie kan onzeker of onjuist zijn.
258841254 is dus op zich geen gegeven, maar een voorkomen van 258841254 dat geen toeval is maar het gevolg van een vastlegging van informatie is dat wel, en aan de meeste tekenreeksen die je tegenkomt kun je wel zien of het gegevens zijn, ook als je ze zelf niet kunt interpreteren. Persoonsgegevens zijn gegevens die volgens de bij vastlegging gebruikte interpretatie informatie over een persoon vastleggen, ook als degene die ze verwerkt die interpretatie niet kent, en zelfs als de gegevens op zich niet voldoende zijn om tot een persoon herleid te kunnen worden. Het kan namelijk zijn dat die interpretatie pas achteraf mogelijk wordt door al bestaande interpretaties te combineren. Simpel voorbeeld: ik leg vast dat IP-adres 123.45.67.89 op 21 april 2017 12:04 GMT mijn website heeft bezocht. Iemand anders legt vast dat iemand met dat IP-adres op dezelfde dag als Jan Haas heeft ingelogd. Pas door combinatie ontstaat de informatie dat vrijwel zeker Jan Haas op 21 april 2017 12:04 GMT mijn website heeft bezocht. Geen van ons beiden heeft dat vastgelegd, maar samen hebben we dat wel.
Ik zou dus zeggen: alleen alle bits vallen onder de privacyverordening die volgens de bij vastlegging gebruikte interpretatie informatie vastleggen waaruit in principe, eventueel in combinatie met andere van zulke bits, informatie over een persoon afleidbaar is. Dat betekent dat IP-adressen uit logs er duidelijk onder vallen. Maar ontzettend veel bits zitten in een grijs gebied. Te eerste omdat die andere bits dan wel moeten bestaan, en dat weet je vaak niet. Ten tweede omdat veel informatie vaag is: een foto van iemand die best eens Jan Haas zou kunnen zijn, een IP-adres dat vast van Jan Haas is omdat er maar zo weinig mensen in zijn gemeente bij deze provider zitten, enzovoorts.
258841254 is niet meer willekeurig: Google linkt het eerst naar (artikel van) Arnoud en dan van jou. Oeps: heb ik nu persoonsgegevens verwerkt? Laat ik voor de zekerheid maar anoniem reageren…..
We doen daar bij kentekens toch ook niet moeilijk over? Er is een auto met een kenteken, en honderden mensen kunnen die auto besturen. De verantwoordelijke voor de auto, de persoon die ook de verzekering en de wegenbelasting betaalt, moet maar bij zien te houden wie er allemaal in de auto rijdt. Doet hij dat niet, dan is het risico van overtredingen voor hem.
Dat lijkt met IP adressen, grosso modo ook te kunnen werken. Natuurlijk wordt het lastiger als jij bij een cafe de open wifi gebruikt, maar ik vind ook dat als je open wifi aanbiedt je wel enige verantwoordelijkheid moet hebben met betrekking tot logging en identificatie van wie er allemaal gebruik van maken.
Dan wordt het inderdaad wel erg ruim. Dat blonde meisje voor me bij de kassa is dan ook een persoonsgegeven maar is door werkelijk niemand behalve mezelf terug te leiden tot een persoon.
Daarbij, het noemen van alleen dat nummer is dan gelijk aan het noemen van een naam. Hoewel ik snap dat Arnoud Engelfriet een persoonsgegeven is, maakt deze reactie dat toch nog niet tot een datalek?
Beiden zijn inderdaad persoonsgegevens, omdat ze te herleiden zijn. Bij het meisje bij de kassa zou ik inderdaad wel even twijfelen, waar zijn de ontvangers van je bericht en kunnen die er wat mee? Als je het bijvoorbeeld zou hebben over dat meisje achter de kassa, dan kan ik daar morgen langsgaan en haar ontmoeten. Dat zou ik dus een probleem vinden.
Of het een datalek af, hangt met name af van of er een grondslag is voor jouw verwerking/jouw bericht. Je noemt mijn naam hier in een bericht als voorbeeld, je grondslag is dan een eigen dringend belang vanuit de vrijheid van meningsuiting – je wil een voorbeeld maken over de breedte van de Wbp/AVG. Dat zit wel goed hier.
Ook moet sprake zijn van een inbreuk op de vereiste beveiliging, oftewel je had meer moeten doen om dat bericht te beveiligen, te beperken tot een specifieke groep geautoriseerde ontvangers. En dat hangt dan weer af van je grondslag. In dit geval is er denk ik nul beveiliging vereist, dus dat is geen datalek.
Is dit niet gewoon het oude verhaal dat informatie niet alleen bestaat uit een stukje data, maar ook uit een context waarbinnen dat stukje data betekenis heeft? Soms is de context zodanig breed bekend (zoals bij URLs) dat de data alleen voldoende is, soms niet.
En inderdaad, elk stuk data (hoe groot ook) kan geschreven worden als een getal. Heeft leuke consequenties.
Niets nieuws: de GPL licentie is soms ook beschreven als virus, o.a. door microsoft.
Dit artikel is een zeer interessant stukje leesvoer over dit probleem; de kloof tussen het juridische (waar data vandaan komt maakt veel uit) en het technische (data is data), geillustreerd met een metafoor.
Bedankt voor de link; interessant artikel. Er staat nog een inzichtelijke reactie onder het artikel die verder onderscheid maakt tussen “wat is de data” (de bits zelf), “wat betekent de data” (o.a. hoe betrouwbaar acht je de data; in wezen subjectief) en “wat is de herkomst van de data” (objectief, maar niet met absolute zekerheid vast te stellen op basis van de data zelf, bijv. “komt deze data uit een random generator?”).
Vreemd, het lijkt me dat wat de Autoriteit Persoonsgegevens op haar website vermeld over kentekens van auto’s, namelijk
daar haaks op staat ?