Mag GHTorrent openbare data van Github aggregeren als onderzoeksdataset?

| AE 8460 | Intellectuele rechten, Privacy | 25 reacties

ghtorrent-data-structureMag je eisen dat je e-mailadres verwijderd wordt uit de GHTorrent dataset? Een veel voorkomende klacht bij dit project. GHTorrent is een onderzoeksproject dat Github-softwareprojecten indexeert en gemakkelijk doorzoekbaar maakt. Hierbij worden ook de e-mailadressen van ontwikkelaars geïndexeerd, waardoor je allerlei koppelingen kunt leggen. Maar mag dat eigenlijk wel?

Github is een van de grootste platforms voor gedistribueerde softwareontwikkeling, met name voor open source. De activiteit op het platform maakt het ook interessant voor wetenschappelijk onderzoek naar gedrag en handelen bij softwareontwikkeling. Zo las ik dat bijdragen van vrouwen eerder opgenomen worden in softwareprojecten dan die van mannen.

Dit onderzoeken betekent dat je honderdduizenden projecten moet doorlopen, iets dat handmatig vrijwel onmogelijk is. Vandaar GHTorrent: plat gezegd een offline mirror van alle Github metadata, zodat je niet per onderzoeksvraag de hele site af hoeft te struinen.

Niet iedereen is daar blij mee. Met name niet omdat ook het e-mailadres van ontwikkelaars opgenomen is. Je kunt dat e-mailadres dan als identifier gebruiken (het man/vrouw onderzoek werkte zo: via het e-mailadres kon je het Google+ profiel vinden en daar het geslacht van de ontwikkelaar achterhalen). En je kunt er natuurlijk ook mail heen sturen, waar de klachten over begonnen. Continu vragen krijgen om mee te doen aan allerlei onderzoek is niet prettig.

De data is publiek. E-mailadressen zijn gewoon zichtbaar, dus iedereen die wil kan dezelfde dataset verkrijgen als GHTorrent. Is het dan slechts een kwestie van fatsoen dat je toch mailadressen blokkeert of van antispam-maatregelen voorziet? Nou, niet per se. In Europa – waar het project vandaan komt – gelden strenge privacyregels ten aanzien van persoonsgegevens, en die gelden ook als de gegevens uit openbare bron zijn verkregen.

Een e-mailadres is een persoonsgegeven onder de Europese regels, omdat het naar een persoon (de ontwikkelaar) te herleiden is. Wie dergelijke gegevens bij elkaar brengt en ontsluit, is daar verantwoordelijk voor. Deze verantwoordelijke moet een grondslag in de wet hebben om dit te mogen doen, en moet zich houden aan de informatieplichten en het recht van inzage, correctie en verwijdering dat alle betrokken personen hebben.

Ook als de data publiek is. Dat ondervond Google in 2014 met het vergeetrecht-arrest: hoewel Google-zoekresultaten afgeleid zijn van openbare bronnen, heeft Google een eigen verantwoordelijkheid bij hoe zij die resultaten rangschikt en presenteert. Zij is dus zelf onderworpen aan het vergeetrecht (en de andere wettelijke plichten voor verantwoordelijken), los van de bronnen waar zij zich op baseert.

Hetzelfde geldt voor GHTorrent. Zij brengt openbare data bij elkaar, maar die data bevat persoonsgegevens. En daarom is de beheerder van GHTorrent de verantwoordelijke en verplicht om te informeren en om correctie en verwijdering toe te staan.

Verwijdering hoeft echter niet altijd. De vraag is of de data irrelevant is voor het doel waarvoor deze is verzameld. In het geval van Google: wanneer de zoekresultaten achterhaald of anderszins niet meer relevant zijn voor de persoon op wie je zocht, bij een zoekopdracht naar een persoon. Bij GHTorrent geldt hetzelfde, maar dat vertaalt zich lastiger naar de praktijk. Immers, ook oude gegevens van een ontwikkelaar zijn relevant voor wetenschappelijk onderzoek, dus het Google-criterium gaat hier niet op. Welk criterium dan wel, dat weet ik zo even niet.

Maar misschien is er een simpeler oplossing. Er moet immers sowieso een wettelijke grondslag zijn voor je gebruik van de gegevens. Enkel “ze komen uit openbare bron” is niet genoeg als grondslag, net zo min als “wij doen wetenschappelijk onderzoek”. Toestemming is er niet, een contract met GHTorrent ook niet, dus dan val je terug op de eigen dringende noodzaak: er is een legitiem belang (wetenschappelijk onderzoek), de gegevens zijn daar écht voor nodig (die zie ik wel) en alles is in het werk gezet om de privacy zo veel mogelijk te beschermen.

En bij dat laatste gaat het mis, want in principe is dan een opt-out vereist. Niet perse, andere maatregelen mogen ook. Zo kun je bijvoorbeeld de e-mailadressen hashen, zodat je er wel op kunt matchen maar ze niet kunt gebruiken om te mailen. Of je laat ze weg uit de publieke dataset en verstrekt ze alleen als mensen apart akkoord gaan met geheimhouding van die set. Maar opt-out lijkt mij het makkelijkste.

GHTorrent lijkt me dus legaal, maar ze moeten zich wel houden aan de Europese regels over persoonsgegevens. En in de praktijk betekent dat dus wel degelijk dat er een opt-out moet zijn.

Arnoud

Wanneer is een cc een overtreding van de privacywet (en dus boetewaardig)?

| AE 8189 | Ondernemingsvrijheid, Privacy | 41 reacties

mail-to-cc-bccEen lezer vroeg me:

Recent kreeg ik een aankondiging van een webwinkel. Ik niet alleen, nog 254 andere mensen ook. Ja, exact 254, want ik kon de mailadressen van iedereen zien in het cc: veld. Is dat nu ook een datalek? Wat voor boete staat erop?

Per 1 januari bevat de Wbp een meldplicht datalekken, maar belangrijker: vanaf dat moment mag de Autoriteit Persoonsgegevens (de new, tough Cbp) boetes opleggen voor overtreding van zo ongeveer elke bepaling uit de privacywet. De voor mij belangrijkste bevoegdheid is die van het schenden van je beveiligingsplicht, kort gevolgd door de verwerking zonder grondslag.

Een verwerking zonder grondslag wil zeggen, je doet iets met persoonsgegevens maar je treedt buiten de gegeven toestemming of je kunt geen rechtvaardiging geven onder je dringend eigen belang of onder een overeenkomst die je hebt. En ja, dat kan al zo simpel zijn als het gebruiken van het cc: veld in plaats van bcc: als je meerdere ongerelateerde mensen wilt mailen.

In oktober publiceerde het Cbp concept-beleidsregels over boetes. Deze zijn nog niet definitief maar ik verwacht niet dat ze héél anders gaan worden. In het kort classificeert men overtredingen in drie categorieën (licht, middel, zwaar). Per categorie is er een basisboete en een bandbreedte, en de boete wordt vastgesteld als de basis plus of min ten hoogste de bandbreedte. De exacte hoogte van de plusmin volgt uit het concrete geval.

Het verwerken van gegevens zonder grondslag of het hergebruiken voor niet toegestane doelen valt in categorieën middel of zwaar, zo blijkt uit het concept. Daarmee ligt de boete in beginsel op zijn minst op € 120.000, de ondergrens van de bandbreedte van categorie twee (middel). De omvang van de inbreuk weegt mee, dus hoe meer adressen hoe duurder het wordt.

Een boete kan echter pas opgelegd worden nadat een aanwijzing over de overtreding niet is opgevolgd, of als blijkt dat sprake is van opzettelijk of grof nalatig handelen. Die gaat nog een lastige worden bij cc-foutjes, omdat dat vrijwel altijd onnadenkend gebeurt. Je wilt bcc, je klikt niet goed en je drukt te snel op verzenden. Dat kan ik geen ‘opzet’ noemen. Van grof nalatig, of beter gezegd ‘het gevolg van ernstig verwijtbare nalatigheid’, is sprake

indien de overtreding het gevolg is van grof, aanzienlijk onzorgvuldig, onachtzaam dan wel onoordeelkundig handelen.

Ik denk dat de term ‘grof’ op al die andere kwalificaties slaat, dus grof onzorgvuldig, grof onachtzaam of grof onoordeelkundig. En dat houdt dan in dat je niet zomaar onachtzaam of onzorgvuldig moet zijn geweest maar best wel heel erg. En dán wordt het spannend, want is dit iets dat iedereen zou moeten weten en niet moeten laten gebeuren, of is dit het soort dikkevingerfout dat iedereen kan overkomen en dus ‘gewoon’ onzorgvuldig is?

Arnoud

Mag een spamfilterdienst de beveiliging van e-mail afslopen?

| AE 8139 | Privacy, Security | 9 reacties

spam-verboden.pngEen lezer vroeg me:

Sommige bedrijven bieden een service om alle uitgaande email transparant te scannen op spam/virussen via een soort SMTP netwerk proxy. Als onderdeel van dat proces schakelen ze de TLS encryptie uit, waardoor alle email plain-text wordt afgeleverd naar het internet. Is dat juridisch wel toegestaan?

Er is geen wettelijke regel die expliciet zegt dat e-mail te allen tijde versleuteld moet worden getransporteerd. Je bent als bedrijf dus vrij om te kiezen of en welke beveiliging je hanteert.

Maar wacht. Per 1 januari krijgen we een aanscherping van de privacywet (Wet bescherming persoonsgegevens), die stelt dat persoonsgegevens te allen tijde “adequaat” moeten zijn beveiligd tegen misbruik en ongeautoriseerde toegang. Die norm bestaat al jaren, de aanscherping komt erop neer dat je in theorie acht ton boete kunt krijgen vanaf januari als je hem schendt.

Wat is nu “adequaat” bij e-mail? Helaas zijn daar geen harde regels voor. Het hangt er namelijk vanaf wat voor gegevens er in die e-mail staan. Gaat het alleen om afzender en ontvanger (relatief weinig gevoelig) of worden er in de bijlage medische dossiers verstuurd (nogal gevoelig)? Dat bepaalt voor een groot deel de vereiste beveiligingsmaatregelen om “adequaat” te mogen heten.

E-mail over SSL/TLS transporteren is een simpele maatregel die eigenlijk altijd wel kan. Dus de factor is dat wel het minimum, net zoals SSL op een bestelformulier van een webwinkel de facto vereist is. Als je dat weglaat, dan heb je dus wat uit te leggen.

De logica achter dit proces begrijp ik niet helemaal. Natuurlijk, je kunt geen mails scannen als ze door een beveiligde verbinding lopen, maar waarom zet je dan niet een beveiligde verbinding op naar de virusscannersite?

Arnoud

Is een betalingsherinnering per e-mail eigenlijk legaal?

| AE 7777 | Privacy | 33 reacties

Een lezer ontving een nogal dreigend klinkende mail, waarvan hij zich afvroeg of het wel legaal is: U heeft factuur NCC1701 nog niet betaald, ondanks onze eerdere herinnering(-en), aanmaning(-en) en incassobrief(-ven). Via deze e-mail verzoeken wij u dringend het openstaande bedrag per direct te betalen. Alleen dan voorkomt u het opstarten van een gerechtelijke procedure… Lees verder

Engelse MP wil verbod op e-maildisclaimers, maar hoe dan?

| AE 7303 | Iusmentis, Privacy | 17 reacties

De Engelse parlementariër Alan Duncan wil een verbod op de “meaningless missives” die iedereen klakkeloos onder zijn e-mails hangt, zo las ik bij de BBC. Heerlijke speech ook. Een verbod op e-maildisclaimers, hoe w00t is dat. Alleen: is het haalbaar, en hoe ga je dat in vredesnaam opschrijven? E-maildisclaimers zijn velen al jaren een doorn… Lees verder

De rechtsgeldigheid van een niet te openen pdf-bestand

| AE 7209 | Privacy | 39 reacties

Die kende ik nog niet: “Het is immers algemeen bekend dat er, afhankelijk van bijvoorbeeld het e-mailaccount van de ontvanger of van de apparatuur die hij gebruikt of het netwerk op de plaats van ontvangst, problemen kunnen optreden bij het openen van bijlagen bij e-mailberichten.” Citaat uit een vonnis met een discussie over of een… Lees verder

Mag een maildienst met encryptie onkraakbaar zijn?

| AE 7155 | Privacy, Security | 24 reacties

Met de dienst Startmail kunnen mensen versleuteld met elkaar mailen, ook als ze geen eigen encryptiesoftware (PGP) hebben. Dat las ik bij Tweakers. Heel mooi, maar PGP is erg sterke encryptie dus ga je je afvragen, hoe zit dat met opsporingsdiensten? Wanneer mag Justitie bij versleutelde mail opgeslagen bij een provider? Op grond van artikel… Lees verder

Hoe bewijs je nu dat een e-mail is aangekomen?

| AE 6804 | Privacy | 30 reacties

Bewijzen dat een e-mail is aangekomen, ga er maar aan staan. Het valt niet mee met voldoende zekerheid aan te tonen dat iemands mailserver een bericht heeft ontvangen, tenzij men natuurlijk een reactiemailtje heeft gestuurd. Maar in een recente rechtszaak was dit bewijs best belangrijk: per e-mail waren instructies gestuurd over het doorzetten van een… Lees verder

Elektronische communicatie gaat onder het briefgeheim vallen

| AE 6795 | Privacy | 25 reacties

Elektronische communicatie als e-mail wordt opgenomen in het brief-, telefoon- en telegraafgeheim uit de Grondwet, meldde Nu.nl vorige week. De geplande Grondwetswijziging zal een generiek ‘brief- en telecommunicatiegeheim’ vermelden, zodat alle vormen van privé telecommunicatie, dus ook berichten via bv. Facebook, in principe vertrouwelijk zijn. Hiermee komt eindelijk een eind aan de onzekere status van… Lees verder