Mag GHTorrent openbare data van Github aggregeren als onderzoeksdataset?

ghtorrent-data-structureMag je eisen dat je e-mailadres verwijderd wordt uit de GHTorrent dataset? Een veel voorkomende klacht bij dit project. GHTorrent is een onderzoeksproject dat Github-softwareprojecten indexeert en gemakkelijk doorzoekbaar maakt. Hierbij worden ook de e-mailadressen van ontwikkelaars geïndexeerd, waardoor je allerlei koppelingen kunt leggen. Maar mag dat eigenlijk wel?

Github is een van de grootste platforms voor gedistribueerde softwareontwikkeling, met name voor open source. De activiteit op het platform maakt het ook interessant voor wetenschappelijk onderzoek naar gedrag en handelen bij softwareontwikkeling. Zo las ik dat bijdragen van vrouwen eerder opgenomen worden in softwareprojecten dan die van mannen.

Dit onderzoeken betekent dat je honderdduizenden projecten moet doorlopen, iets dat handmatig vrijwel onmogelijk is. Vandaar GHTorrent: plat gezegd een offline mirror van alle Github metadata, zodat je niet per onderzoeksvraag de hele site af hoeft te struinen.

Niet iedereen is daar blij mee. Met name niet omdat ook het e-mailadres van ontwikkelaars opgenomen is. Je kunt dat e-mailadres dan als identifier gebruiken (het man/vrouw onderzoek werkte zo: via het e-mailadres kon je het Google+ profiel vinden en daar het geslacht van de ontwikkelaar achterhalen). En je kunt er natuurlijk ook mail heen sturen, waar de klachten over begonnen. Continu vragen krijgen om mee te doen aan allerlei onderzoek is niet prettig.

De data is publiek. E-mailadressen zijn gewoon zichtbaar, dus iedereen die wil kan dezelfde dataset verkrijgen als GHTorrent. Is het dan slechts een kwestie van fatsoen dat je toch mailadressen blokkeert of van antispam-maatregelen voorziet? Nou, niet per se. In Europa – waar het project vandaan komt – gelden strenge privacyregels ten aanzien van persoonsgegevens, en die gelden ook als de gegevens uit openbare bron zijn verkregen.

Een e-mailadres is een persoonsgegeven onder de Europese regels, omdat het naar een persoon (de ontwikkelaar) te herleiden is. Wie dergelijke gegevens bij elkaar brengt en ontsluit, is daar verantwoordelijk voor. Deze verantwoordelijke moet een grondslag in de wet hebben om dit te mogen doen, en moet zich houden aan de informatieplichten en het recht van inzage, correctie en verwijdering dat alle betrokken personen hebben.

Ook als de data publiek is. Dat ondervond Google in 2014 met het vergeetrecht-arrest: hoewel Google-zoekresultaten afgeleid zijn van openbare bronnen, heeft Google een eigen verantwoordelijkheid bij hoe zij die resultaten rangschikt en presenteert. Zij is dus zelf onderworpen aan het vergeetrecht (en de andere wettelijke plichten voor verantwoordelijken), los van de bronnen waar zij zich op baseert.

Hetzelfde geldt voor GHTorrent. Zij brengt openbare data bij elkaar, maar die data bevat persoonsgegevens. En daarom is de beheerder van GHTorrent de verantwoordelijke en verplicht om te informeren en om correctie en verwijdering toe te staan.

Verwijdering hoeft echter niet altijd. De vraag is of de data irrelevant is voor het doel waarvoor deze is verzameld. In het geval van Google: wanneer de zoekresultaten achterhaald of anderszins niet meer relevant zijn voor de persoon op wie je zocht, bij een zoekopdracht naar een persoon. Bij GHTorrent geldt hetzelfde, maar dat vertaalt zich lastiger naar de praktijk. Immers, ook oude gegevens van een ontwikkelaar zijn relevant voor wetenschappelijk onderzoek, dus het Google-criterium gaat hier niet op. Welk criterium dan wel, dat weet ik zo even niet.

Maar misschien is er een simpeler oplossing. Er moet immers sowieso een wettelijke grondslag zijn voor je gebruik van de gegevens. Enkel “ze komen uit openbare bron” is niet genoeg als grondslag, net zo min als “wij doen wetenschappelijk onderzoek”. Toestemming is er niet, een contract met GHTorrent ook niet, dus dan val je terug op de eigen dringende noodzaak: er is een legitiem belang (wetenschappelijk onderzoek), de gegevens zijn daar écht voor nodig (die zie ik wel) en alles is in het werk gezet om de privacy zo veel mogelijk te beschermen.

En bij dat laatste gaat het mis, want in principe is dan een opt-out vereist. Niet perse, andere maatregelen mogen ook. Zo kun je bijvoorbeeld de e-mailadressen hashen, zodat je er wel op kunt matchen maar ze niet kunt gebruiken om te mailen. Of je laat ze weg uit de publieke dataset en verstrekt ze alleen als mensen apart akkoord gaan met geheimhouding van die set. Maar opt-out lijkt mij het makkelijkste.

GHTorrent lijkt me dus legaal, maar ze moeten zich wel houden aan de Europese regels over persoonsgegevens. En in de praktijk betekent dat dus wel degelijk dat er een opt-out moet zijn.

Arnoud

25 reacties

  1. Maar opt-out lijkt mij het makkelijkste.

    Ik zie niet helemaal waarom er een opt-out zou moeten zijn. Opt-in (toestemming verkrijgen) lijkt me logischer. En ja, dat is lastiger voor zo’n project. Maar een opt-out van een gegevensset die al op internet verspreid wordt is een vrij zinloze bezigheid, het internet vergeet niet. Een dergelijke opt-out biedt daarom nauwelijks of geen bescherming. En dan die geheimhouding : mag ik daadwerkelijk persoonsgegevens zonder grondslag of toestemming verwerken als ik maar beloof dat ik ze geheim houdt ?

    1. Is een opt-in om dezelfde reden niet zinloos? Het internet vergeet ook niet als jij toestemming weigert. Ook illegale publicaties blijven gewoon beschikbaar.

      Ik zie dus wél een grondslag, namelijk de eigen dringende noodzaak (art. 8 sub f Wbp) die expliciet bedoeld is voor situaties waarin je geen toestemming hebt. Net zoals ik IP-adressen mag loggen zonder mensen te vragen om toestemming.

      1. Is een opt-in om dezelfde reden niet zinloos?

        Nee, want het lijkt mij dat een dergelijk project niet geassocieerd wil worden met illegale publicaties, toch? De vraag is alleen waar je toestemming voor geeft. Ik heb ook code op GitHub staan, en een deel van die code is publiekelijk beschikbaar. Die mogen ze van mij in het onderzoek meenemen. Maar ik zou wel graag toestemming geven voor het wel/niet openbaar maken van mijn emailadres. Ik denk ook dat daar de opt-in zinnig voor is. Voor het project zou het volgens mij het makkelijkst zijn om ofwel alle emailadressen te hashen (stelt qua code niets voor, zo gebouwd, maar valt nog steeds onder Wbp) of een eigen unieke ID toekenning aan emailadressen en die in de publieke dataset gebruiken. Werkt hetzelfde als de hash, maar je hoeft er geen toestemming van de bezitter van het mailadres voor te vragen, zolang die koppeling tussen ID en emailadres niet ook openbaar wordt gemaakt. Maar je kunt er wel de relaties mee leggen die je anders op het mailadres zou maken.

  2. Het lijkt me voor wetenschappelijk onderzoek nodig dat er niet een significant aantal mensen een opt-out doet. De opt-outers zouden namelijk wel eens een niet-representatief deel van de totale groep kunnen zijn, en dan krijg je vertekende onderzoeksresultaten.

    Dan maar een andere anonimiserings-methode, zoals hashen van e-mail-adressen?

  3. Ik doe mee met dit onderzoek en zal de vragen hier vertalen naar in het Engels (voor de onderzoeksleider).

    Hashen van email adressen werkt niet: email adressen worden gebruikt om te koppelen met andere sites. Een onderzoeker moet dus de hash-functie hebben en kan hiermee de gehashte adressen weer terugzetten naar oude staat (als het email adres ergens anders ongehashed is te vinden).

    Ik ben gekleurd in deze, maar toch maar mijn mening geven: Google slaat webadressen op in een archief. Deze webadressen zijn te koppelen aan persoonsgegevens via WHOIS en dus te herleiden naar personen. Je hebt twee manieren om dit te voorkomen: Robots.txt zegt “hoepel op!” (gratis) en WHOIS gegevens kunnen ge-anonimiseerd worden (kleine uitgave).

    GHTorrent slaat emailadressen op. Deze emailadressen zijn, soms via andere sites, soms specifiek, te herleiden naar persoonsgegevens. Je hebt twee manieren om dit te voorkomen: Zet geen publiek email adres op je openbare profiel, én: vraag GHTorrent (eventueel via geautomatiseerd formulier) om deze informatie te verwijderen.

    Hoeveel verwachting van privacy heb je als je zelf privacy-gevoelige informatie koppeld aan een publiek profiel? Voor mij: Vrij weinig tot geen. Naast GHTorrent, ook tientallen zoekmachines die dit hebben opgeslagen. Naast GHTorrent, ook spammers die dit in 5 minuten coden en een nachtje crawlen kunnen ophale (en waarschijnlijk reeds hebben opgehaald).

    In een andere studie heb ik netwerkvorming en taalkunde onderzoek gedaan naar IRC-gebruikers. Hier heb ik wel enorm veel geanonimiseerd en ben uiteindelijk gestopt: Ik vind dat je op IRC (hoewel je daar met naam en IP post) een verwachting van privacy hebt: Je deelt informatie met de gebruikers in het kanaal, niet op een openbare website online.

    1. Ik snap wat je zegt over het openbare karakter van de gegevens, maar nogmaals: dat is géén argument onder de data protection wetgeving. Je rechten ten aanzien van persoonsgegevens vervallen niet door ze openbaar te maken, en je bent niet ontslagen van je plichten onder deze wetgeving enkel omdat je uit openbare bronnen put. “Verwachting van privacy” is een Amerikaansrechtelijk begrip dat los staat van deze wetgeving. Je hebt zeggenschap over je persoonsgegevens ongeacht bron en ongeacht openbaarheid daarvan. Iemand moet onder de wet rechtvaardigen dat hij jouw gegevens mag overnemen. En toestemming aan A impliceert geen toestemming aan B.

      Ook dat je gegevens kunt verwijderen, is geen argument. Wie gegevens bijeen brengt, moet dat onder de wet rechtvaardigen en moet zélf complyen met de eisen uit de wet, zoals opt-out of correctie en verwijdering. Zie het Costeja-arrest waar het Hof van Justitie bepaalt dat Google verantwoordelijk is voor zoekresultaten, geheel los van de legaliteit van de bronnen waar Google die uit afleidt.

      Vergeet dus het concept expectation of privacy maar focus op data ownership. Ik ben eigenaar van mijn naam en mijn e-mailadres, ongeacht context, locatie of toepassing daarvan. Als jij daar wat mee wil doen, zul jij een grond in de wet (toestemming, contract of dringende noodzaak) moeten aanwijzen en onder die grond moeten rechtvaardigen dat je het mág wat je doet. Wat anderen doen of wat ik anderen toesta is daarbij volstrekt irrelevant.

      Wat betreft het hashing: als je twee bronnen hebt en je constateert dat beiden een identieke hash hebben, dan weet je dat je die records kunt matchen. Dat is dan juridisch in orde, omdat je gerechtigd bent om beide bronnen te gebruiken en dus ook te combineren. Waar het misgaat, is als je gegevens voor andere doelen gaat gebruiken dan waarvoor je ze kreeg (bv. ze mailen om mee te doen aan een ander onderzoek). Het gaat er dus niet om de gegevens te anonimiseren, het gaat erom ongewenst gebruik te hinderen.

      1. Verwachting van Privacy heb ik van Art. 8 Europese Rechten van de Mens.

        Als dan een drone met een camera voor hun ramen verschijnt, moet al gauw worden aangenomen dat hun redelijke verwachtingen omtrent hun privacy zijn geschonden. — Drones en privacy – Rijksoverheid.nl

        Maar ik neem nu aan dat dit niet geld voor persoonsgegevens. Het is echter wel een morele afweging die elke onderzoeker moet maken (ongeacht de wet).

        Ik denk dat ik ‘em snap nu:

        Ik kan hier posten met mijn echte naam (persoonsgegeven), daarna wordt dit verwerkt en opgeslagen in de WP database. Iusmentis wordt dan niet meteen gegevensverwerker (en hoeft op aanvraag niets te verwijderen). Maar een ieder die Iusmentis crawled en de gebruikersnamen opslaat wordt wel een gegevensverwerker en is gebonden aan de WBP.

        Maar… hoe doe je dit netjes, zonder iedereen om toestemming te hoeven vragen? Dat is bij 25.000+ GH accounts niet te doen.

        Mensen klagen nu over mailtjes van onderzoekers (die toegeven de mail uit de dataset hebben gehaald, en niet via accountprofiel te hebben opgevraagd). Het klinkt zo raar: Ik geef vrijwillig mijn email adres aan jan en alleman, maar wil geen ongewenste (geen spam, maar ongewenst) email ontvangen.

        Hashing blijft obfuscatie en is niet een correcte oplossing hier: Als je de rest van de data hebt (projectnaam bv.) dan ga je naar het profiel en pakt daar handmatig het ongehashte emailadres. Hashing heeft alleen zin als het email adres privé was. Een beetje als een dataset maken van de comments op Iusmentis, en dan de gebruikersnamen hashen. 1 zoekopdracht op Google op de inhoud van het comment geeft de gebruikersnaam. Wim’s posts zijn misschien wel te voorspellen door puur naar de inhoud te kijken :).

        1. (een verlate reactie, mijn RSS feed was foobar, dus ik loop achter met lezen)

          Het klinkt zo raar: Ik geef vrijwillig mijn email adres aan jan en alleman, maar wil geen ongewenste (geen spam, maar ongewenst) email ontvangen.

          Wat is daar raar aan? De reden voor mij om mijn email adres te plaatsen is zodat andere ontwikkelaars mij kunnen benaderen als ze een vraag hebben over de code, en om traceerbaar als auteur (en dus auteursrecht kan claimen). Het staat er niet als uitnodiging om allerhande email te ontvangen over andere onderwerpen (en nee: zelfs niet voor commerciele aanbiedingen voor werk, algemene vragen over de programmeertaal die ik gebruikt heb, en zelfs niet voor wetenschappelijk onderzoek).

          Er zijn wel meer dingen die ik over mezelf openbaar. Mijn naam op dit forum bijvoorbeeld, en je kan ook mijn adres online vinden. Er hangt zelfs een bordje met mijn naam bij mijn voordeur. En toch vind ik het niet leuk als iemand een ander bordje aan het begin van de straat zou zetten met “deze kant op voor het huis van Freek”. En dat is nou net privacy: ik wil zelf in controle zijn over wat ik over mezelf in welke context prijsgeef. Als je (wellicht met de beste bedoelingen) met in een specifieke context gegeven informatie gebruik in een andere context, bijvoorbeeld geslacht combineren bij github, dan kan je verwachten dat er mensen zijn die daar over vallen.

    2. Goede post, Arnoud. Bedankt voor het oppakken (en voor de Engelse versie). De uitkomst is nog een beetje onbevredigend, ik had liever een ‘Nee, dit mag inderdaad niet’ gezien, maar mooi om meer perspectief te hebben 🙂

      Voor mijn perspectief; ik ben één van de klagers in deze.

      Om op Torvald’s punt in te gaan; de enige ‘geldige’ reden op dit moment om de email adressen te automatisch te verzamelen, te verwerken en ook nog eens aan derden beschikbaar te maken is deze mensen expliciet aan andere accounts te kunnen koppelen. Dit is expliciet het gedrag waardoor mensen tracker blockers installeren. Mijn gedrag met naam en toenaam van de ene site koppelen met dat van een andere site heeft een erg hoge ‘ick’ factor. Zelf ben ik hier juist niet van gediend.

      Hashen van email adressen werkt niet: email adressen worden gebruikt om te koppelen met andere sites. Een onderzoeker moet dus de hash-functie hebben en kan hiermee de gehashte adressen weer terugzetten naar oude staat (als het email adres ergens anders ongehashed is te vinden).

      Dit is toch juist een prima manier om het geheel op te lossen? Voor het onderzoek is het niet nodig om een datapunt een gezicht te geven. Je hoeft alleen maar te weten dat de datapunten bij elkaar horen; maw. maak een vooralsnog niet terug te draaien hash van de persoonlijke informatie, maak de methode van hashen bekend en laat verdere onderzoekers zelf die hash ook toepassen als ze datapunten willen koppelen. Nergens hoef je de hash zelf terug te draaien zelfs. Je kan met een opt-in zelf die data weer terugcrawlen en erin stoppen.

      Enige andere reden om mailadressen plaintext op te slaan en aan derden beschikbaar te stellen zonder toestemming is spam; wetenschappelijke spam, dat wel, maar nog steeds spam. Dan vind ik het inderdaad beter als, in plaats van GHTorrent op te zetten, je gewoon een website neerzet met ‘Zo crawl je Github, succes mede-onderzoeker! Spam die developers!’. Dan doen ze het in ieder geval zelf, en biedt je het niet aan.

      1. Ikzelf vind dat ook “icky”. Maar dat is het koppelgedrag van externe sociale onderzoekers en komt voor hun rekening. Ikzelf vind het ook “icky” dat toekomstige werkgevers op Google hun nieuwe werknemers onderzoeken, maar dat komt voor hun rekening, dat kun je Google zelf niet aanrekenen.

        Je hoeft alleen maar te weten dat de datapunten bij elkaar horen; maw. maak een vooralsnog niet terug te draaien hash van de persoonlijke informatie, maak de methode van hashen bekend en laat verdere onderzoekers zelf die hash ook toepassen als ze datapunten willen koppelen. Nergens hoef je de hash zelf terug te draaien zelfs. Je kan met een opt-in zelf die data weer terugcrawlen en erin stoppen.

        Mijn email adres info@example.com hashed naar 45GHDyu. Je geeft onderzoekers de hashing functie en de hashes. Een onderzoeker probeert data van andere sites te koppelen en komt daar het email adres info@example.com tegen. Na hashing onstaat er een match in de dataset met 45GHDyu. De onderzoeker weet nu dat 45GHDyu = info@example.com.

        Mijn email adres info@example.com hashed naar 45GHDyu. Je geeft onderzoekers de hashing functie en de hashes. Een onderzoeker is geinteresseerd in een bepaald project uit de dataset. Dit heeft projectnaam example, is geschreven in Python en heeft 3012 stars. Onderzoeker gaat naar profiel van eigenaar example-project. Hier staat info@example.com ongehashed. De onderzoeker weet nu dat 45GHDyu = info@example.com.

        1. De onderzoeker weet nu dat 45GHDyu = info@example.com.

          Daarom stelde ik ook voor om een betekenisloos (anders dan het kunnen koppelen van bepaalde datapunten aan dezelfde eigenaar) ID ipv. het emailadres of de hash daarvan te gebruiken. Het openbaar maken van de hashfunctie is te vergelijken met iemand niet jouw woonadres maar jouw postcode + huisnummer (= hash) geven (in Nederland een unieke combinatie). Via een omweg kan die derde dan nog steeds het werkelijke adres bepalen, want bij een postcode is het straatadres op te zoeken. Enige nadeel vanuit het oogpunt van het onderzoek is dat er met deze betekenisloze IDs niet met andere databases gekoppeld kan worden. Ikzelf vind dat geen probleem, want ik weet niet wat die andere onderzoeken voor doel hebben, en wil ook niet ongezien mijn toestemming geven om mijn emailadres daarin te gebruiken.

          1. Enige nadeel vanuit het oogpunt van het onderzoek is dat er met deze betekenisloze IDs niet met andere databases gekoppeld kan worden.

            Dan is het email adres betekenisloos geworden en kan netzogoed met een uniek ID gewerkt worden (en het emailadres compleet uit de dataset). Het blijft echter (via een omweg) opvraagbaar, door andere gegevens te koppelen (de naam van de project-eigenaar herleid naar profiel, herleid naar openbaar email adres).

            Dan is een rij uit de dataset nog steeds herleidbaar naar een persoon (als deze persoon zijn/haar email adres op profiel heeft geplaatst). Dat was toch het criterium? Dan is eigenlijk de gehele dataset te herleiden tot persoon, en is het email-adres een “red herring”. Je kan bijvoorbeeld ook met het aantal sterren en de programmeertaal het profiel van de project-eigenaar uitrekenen.

            We rekenen Google dit wel aan

            Dit omdat Google groot en rijk genoeg is om het vergeetrecht voor lief te nemen. Ik zie Google in deze als een uitzonderingspositie. Eigenlijk is het te zot voor woorden om een bibliothecaris verantwoordelijk te maken voor de inhoud van boeken, maar Google is nu eenmaal in de beste positie om vergeetrecht te laten werken. Voor Iusmentis (die ook een verzameling van posts en namen opslaat) of een onderzoeksproject is dit niet relevant. Iusmentis verwijderd ook geen posts/namen op aanvraag.

            Maar bij een onderzoeksdatabase is dit geen legitieme reden, omdat je voor het onderzoek dus prima uitkan met gehashte persoonsgegevens.

            Het koppelen van meerdere openbare bronnen is een legitieme, hetzij soms “icky”, onderzoeksreden (die je met betekenisloos hashen van persoonsgegevens hindert, maar niet onmogelijk maakt). Met de gebruikersnamen (uniek) alleen kun je al uit de voeten, daar heb je geen (gehashte) persoonsgegevens voor nodig.

            Ondanks dat er reeds onderzoek is gepubliceerd dat gebruik maakt van koppeling email adres, zou ikzelf het prima vinden als het email adres-kolom uit nieuwere versies van GHTorrent verdwijnt. Persoonsgegevens zijn van jezelf, en je mag zelf bepalen of je dit in onderzoek wil laten gebruiken ja ofte nee. Onderzoekers kunnen nog steeds herleiden tot publiek email adres, mochten ze dit willen doen, maar GHTorrent enabled ze dan niet meer direct (mogelijk wel indirect).

            GHTorrent wil een zo compleet mogelijke dataset aanbieden, maar moet zich wel aan de privacy-wetten houden. Maar los van de wet: ik zie geen aantasting van privacy, ik geen nut in hashen van email, ik vind het zonde om een goede complete dataset onnodig te handicappen, ik vind een groot verschil tussen privé delen van email adres, en het openbaar publiceren van een email adres, ik weet dat spammers achter het email adres kunnen komen en daar geen enabler voor nodig hebben. Ik vind een onderzoeksvraag over email geen spam.

            Als je deze lijn strak doortrekt kom je met veel datasets in de problemen. Bijvoorbeeld een dataset met Tweets. Sommige mensen delen persoonsgegevens in hun profiel of in de tekst van een tweet zelf. Toestemming vragen? Anonimizeren? Allemaal lastig en tast de integriteit/kwaliteit van de dataset aan.

        2. We rekenen Google dit wel aan, maar zij hebben al ‘legitieme redenen’ kunnen aandragen dat zij voor hun zoekresultaten de data (jammer genoeg) niet kunnen hashen. Maar bij een onderzoeksdatabase is dit geen legitieme reden, omdat je voor het onderzoek dus prima uitkan met gehashte persoonsgegevens. Dus waarom worden deze persoonsgegevens gehasht opgeslagen?

          Dat toekomstige onderzoekers voor hun privé-onderzoek dit weer kunnen achterhalen is hier niet relevant. Dit kunnen we hun later aanrekenen. De discussie hier gaat over of een enabler wel moet mogen.

          Het enige argument om de gegevens ongehasht in database te houden is wat mij betreft;

          “Het is voor andere onderzoekers zo moeilijk om op een andere manier deze gegevens aan andere publieke profielen te koppelen dat we niet anders kunnen dan deze persoonsgegevens plaintext op te slaan.”

          Met het argument ‘dit kan een scriptkiddie in 5 minuten coden en met een nachtje crawlen ook bereiken’, is dat argument neergehaald, dunkt me. Het is dus niet nodig om enabler te spelen voor andere onderzoekers.

  4. Een journalist moet volgens de Wet Bescherming Persoonsgegevens een gerechtvaardigd belang hebben dat noodzaakt dat men deze persoonlijke informatie publiceert én daarbij de privacy van die persoon schendt.

    http://www.iusmentis.com/meningsuiting/nieuws-journalistiek/opschonen-verwijderen-kranten-archieven/

    Ik vind nergens wat nu het geval bij het vrijwillig publiek maken van persoonsgegegevens, maar vond wel bovenstaande uitspraak.

    Gerechtvaardigd belang: Integriteit en compleetheid van de dataset garanderen. Email is publiek gemaakt en interesant voor onderzoek (ook zonder koppelen). Misschien zijn mensen met een gmail-adres wel betere coders oid. Als email uit de dataset wordt gehaald, dan heeft de oude dataset archiefwaarde.

    De vraag is nu: Wordt je privacy geschonden als iemand een publiek feit herpubliceerd?

    Ik zeg: Nee. Sommige project-eigenaren in de dataset zullen zeggen: Ja. Ik kom dan terug op verwachting van privacy. Wordt privacy geschonden omdat de eigenaar van de gegevens dit vind? Of zijn er wettelijke regels wat een “schending van privacy” inhoud?

    Ik heb geen verwachting van privacy in de openbare ruimte, dus als ik mijzelf terug zie op een foto terwijl ik aan het winkelen ben, met een t-shirt met daarop het gezicht van mijn zoon, kan ik dan zelf bepalen dat mijn privacy is geschonden?

    Een goede onderzoeker zal altijd op hoogste niveau van aggregatie de gegevens publiceren. Dus niet dat je email-adres of geslacht ineens in een onderzoekspaper staat, maar meer dat Github gebruikers die actief zijn op andere sites over het algemeen betere/populairdere Github projecten hebben, of dat pull-requests van vrouwen minder vaak worden geaccepteerd dan mannen.

    Zie hier een paper hoe dit niet moet: http://arxiv.org/pdf/1601.05140v1 (Twitter gebruikers met naam en toenaam)

    1. Die uitspraak is van mij, en ik ben het er volkomen mee eens. Ik zie zeker ook een belang bij het opbouwen van de dataset, maar kom bij de belangenafweging toch echt uit bij de wens voor een opt-out. Je moet als verantwoordelijke alles doen dat je kunt om de privacy te minimaliseren, anders weegt jouw belang niet op tegen de privacy. Hier zijn geen harde regels voor, je moet het van geval tot geval betogen waarom dat opgaat (of niet) bij jou. Dit is een objectief criterium, niet subjectief.

      Nogmaals, verwachting van privacy is een Amerikaans begrip dat niet terugkomt in de Wet bescherming persoonsgegevens. Het kan indirect meespelen in die afweging, maar je kunt niet uit situatie A (die legaal is zonder opt-out) concluderen dat situatie B zonder opt-out ook legaal is. Het gaat om situatie B, hoe erg is die qua privacyschending en wat heb jij gedaan om dáár de privacyschending te verminderen.

      Ik zie het belang en ik zie de wens tot koppelen. Maar waarom moet dat zó zwaar wegen dat je een opt-out categorisch mag weigeren? Wat maakt het belang zó gigantisch waardevol dat de privacy de prullenbak in kan? In elk wetenschappelijk onderzoeksprotocol dat ik ken, is expliciet opgenomen dat betrokkenen die niet meer mee willen doen, er direct uit gegooid worden. Waarom is dat hier anders?

      1. U heeft mij overtuigd. Ik zag het plaatsen van een publiekelijk opvraagbaar e-mail adres als een indirecte opt-out. Je kan opt-outen door niet je email adres publiek te maken. Ik kon mij geen reden voorstellen waarom je deze wel publiekelijk zou willen publiceren, maar niet publiekelijk in een dataset wil hebben staan. Nu besef ik dat een reden helemaal niet nodig is. Mensen plaatsen email op profiel niet met als doel dat dit gebruikt wordt in wetenschappelijk onderzoek. Punt. Wil je deze data gebruiken voor een ander doel (zoals onderzoek) dan zul je, indien mogelijk, toestemming moeten vragen en zoveel mogelijk privacy-schending tegengaan.

        Dezelfde redenering gebruikte ik voor de cookie-wet: Je kan opt-outen door je browser geen cookies te laten accepteren. Maar misschien wil iemand wel cookies voor vriendelijke sites, maar geen tracking cookies. Een specifieke opt-out blijft dus nodig.

        Ook het debat over hashing zie ik eensgelijker. Het maakt niet uit of dit cryptografisch klopt of dat dit slechts obfuscatie is. Het gaat erom (juridisch gezien) of WBP ja of nee zegt. Het is lastig (voor mij) om de wetten van de logica te laten varen, om zo naar de wetten van Nederland te kijken, maar het zal wel moeten.

  5. Ik heb een crawler geschreven voor Nederlandse domeinnamen. Sommige domeinnamen bevatten de naam van de persoon. Vrijwel alle domeinnamen zijn herleidbaar tot persoon via WHOIS.

    Als ik hier een wetenschappelijke dataset van wil maken, moet ik dan toestemming vragen aan “http://arnoudengelfriet.nl/” voor opname in de kolom “domeinnaam”? De lijn volgend: Het lijkt mij van wel. Dit voelt overtrokken en duidt op een gebrekkige wet.

    1. Dat is niet de lijn die de wet uitzet. De wet (art. 8 Wbp) zegt dat toestemming een grondslag is, maar niet de enige. Je kunt je beroepen op een eigen dringende noodzaak (sub f van dat artikel) maar dan moet je wel onderbouwen waarom jouw noodzaak zwaarder weegt dan mijn privacy én dat je alles hebt gedaan om de privacy-inbreuk te temperen. Hier kan een rol spelen dat de informatie publiek is en technisch noodzakelijk is omdat je anders de domeinnaam niet kunt benoemen.

      En dat een wet gebrekkig is, is geen argument.

      1. En dat een wet gebrekkig is, is geen argument.

        Nee klopt. Misschien kunnen we wel ergens een pull-request indienen :). Excuus voor mijn argumentatie. Die is gebaseerd op boerenlogica en niet op kennis van zaken. Ik had dit veel meer juridisch moeten insteken, of mijn mond moeten houden.

        Wat ik nog steeds interessant vind: Wat is publicatie? De dataset als torrent ergens wegzetten lijkt mij gelden als publicatie. Maar geld dit ook voor een crawl-script dat als output de dataset geeft? Een crawl-script wordt ingezet als Twitter geen toestemming heeft gegeven voor herpublicatie van Tweets (zodat onderzoekers deze zelf moeten binnentrekken).

        Ik moet mij nog eens goed inlezen, want ik kan mij voorstellen dat voor de andere datasets (reddit, wikipedia, stackoverflow) waar ik aan werk, hetzefde kan gelden: De data kan persoonsgegevens bevatten en een verwerking daarvan moet ik melden. Voelt net zo irritant en privacy-beschermend als die cookie-popups, maar waar gehakt wordt vallen spaanders.

          1. GHTorrent is stopgezet totdat dit probleem is opgelost. Er komt een opt-out formulier en een FAQ over hoe/waarom de gegevens gebruikt worden. Ik zal u het e-mailadres van de onderzoeksleider sturen ( ik herpost dat niet hier publiekelijk, alhoewel het openbaar op zijn profiel staat 🙂 ), mogelijk heeft u nog tips of is er een interessante casus van te maken voor rechtenstudenten aan deze of gene universiteit.

            Voor mijzelf zou ik meer artikelen/blogs over onderzoek en de raakvlakken met privacy en auteursrecht zeer waarderen. Misschien wel een heuse checklist. Ik vond het bijvoorbeeld frappant dat onderzoekers geen gebruik mochten maken van een XML-bestand met Het Dagboek van Anne Frank, en moesten terugvallen op plakkertjes en ezelsoren.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.