AIVD en MIVD maken rechtmatig gebruik van persoonsgegevens in bulkdownloads

| AE 10401 | Regulering | 25 reacties

De inlichtingendiensten AIVD en MIVD gaan “rechtmatig” om met datasets met persoonsgegevens die online worden aangeboden. Dat las ik vorige week bij Nu.nl. Deze conclusie volgt uit het rapport 55 over het verwerven van op internet aangeboden bulkdatasets van de Commissie van Toezicht op de Inlichtingen- en Veiligheidsdiensten. Dat “online aangeboden” moet je met aanhalingstekens uitspreken, want het gaat eigenlijk om gelekte of gestolen gegevens die op schimmige plekken te verkrijgen zijn. Maar voor de inlichtingendiensten is dat dus geen probleem.

Het klinkt ergens gek, maar ook de AIVD en haar militaire broertje de MIVD moeten de privacy respecteren van mensen die ze bespioneren. Dat betekent dus dat het gebruiken van ‘gevonden’ datasets met persoonlijke informatie niet zomaar kan, met name omdat daar ook veel gegevens in zullen zitten van mensen die in het geheel niet in beeld zijn bij de inlichtingendiensten.

Het gebruik van die persoonsgegevens is geregeld in de Wet op de Inlichtingen- en Veiligheidsdiensten, waarvan editie 2002 van toepassing was op de vergaring. (En editie 2017 is de beruchte ‘sleepwet’.) De bevoegdheden zijn een stuk breder dan voor gewone burgers of overheidsinstanties. Kort gezegd mag er veel meer zolang het maar enigszins gedocumenteerd wordt en het gebruik netjes wordt bijgehouden.

Zo is er een openbronregeling die bepaalt hoe men informatie uit open bronnen mag betrekken, waarbij het niet uitmaakt of die bron de gegevens legaal of illegaal publiceert. Daarbij is het zelfs toegestaan om je te registreren onder een valse naam en dan te zien wat er te downloaden is; de grens ligt bij de aanbieder overhalen tot het verstrekken van de bron. Dat mag ook maar valt onder de agentregeling met net iets strengere eisen.

Aanleiding voor het onderzoek was dat de diensten bestanden hadden gekocht op het “dark web” (/insert omineuze muziek) met gegevens over meer dan honderd miljoen personen, waarvan het overgrote deel nooit en te nimmer relevant zou zijn voor het inlichtingen- en veiligheidswerk. Het ging daarbij om vertrouwelijke informatie die onrechtmatig in die bestanden terecht was gekomen en die normaal nooit zomaar bekend zou zijn.

De AIVD had die gegevens snel opgehaald omdat ze vermoedden dat die zomaar weggehaald zou kunnen worden, en deed dat onder de openbronregeling omdat ze dachten dat het dark web daaronder viel. Maar omdat het feitelijk een aankoop van een bestand was, had dit onder de agentregeling moeten gebeuren. Dat ging dus mis, maar betekent uiteindelijk weinig omdat -zo concludeert de commissie- het onder de agentregeling legaal zou zijn geweest. Belangrijk was daarbij ook dat er op hoog niveau toestemming was gegeven voor de aankoop.

Bij een tweede dataset van vergelijkbare omvang en inhoud ging het mis. Daar werd die toestemming niet op dat niveau gevraagd, en was niet duidelijk hoe men daar precies aan gekomen is. Uiteindelijk heeft dit geen gevolgen, omdat het gebruik verder netjes binnen de lijntjes blijft en het waarschijnlijk was dat er toestemming zou zijn gegeven.

De totale uitkomst verrast dus niet. Over blijven aanbevelingen om zorgvuldiger met de gegevens om te gaan, en jaarlijks te bekijken of de datasets nog nuttig zijn in de praktijk. En meer algemeen om beleid te maken over hoe om te gaan met downloaden of aankopen van datasets als deze. En dat is hoe het eigenlijk altijd gaat met zulke dingen: het mocht niet, maar de schade lijkt beperkt en als er dan beleid op komt, dan is het goed.

Arnoud

Mag je de Twitter API scrapen voor wetenschappelijk onderzoek?

| AE 8877 | Intellectuele rechten | 9 reacties

twitter-agent-politieEen lezer vroeg me:

Deze meneer heeft een mooie data-analyse gemaakt van Donald Trump zijn tweets: Trump zelf gebruikt een Android-apparaat en een ghostwriter nuanceert de boel vanaf een iPhone. Daarbij vroeg ik mij af of dit zomaar mocht. Twitter zegt van wel bij onderzoeksdoeleinden (onder bepaalde voorwaarden). Zoals dat je je dataset niet mag delen met anderen, wat het weer moeilijk maakt voor écht onderzoek.

Op het eerste gezicht zou je zeggen dat onderzoek op Twitterberichten geen probleem zou zijn. Onderzoek op basis van krantenberichten is al decennia oud en geen probleem. En wat is Twitter nou anders dan een krant, zij het sneller en korter en met megaveel meer berichten?

Nou ja, om er eens eentje te noemen: Twitter is een dienst, en een krant is een product. Kranten kun je dan ook legaal inzien vanuit allerlei plekken, zoals bibliotheken, zonder dat daar allerlei gebruiksvoorwaarden gelden. Natuurlijk is het kopiëren van krantenberichten auteursrechtelijk een probleem, maar onderzoeken welke artikelen in Nederlandse kranten door ghostwriter zijn geschreven, is volgens mij volstrekt legaal.

Bij Twitter ligt dat anders. Twitter is een dienst, en kan daar voorwaarden aan verbinden. Die hebben ze dan ook, maar ik kan er geen specifieke regels over wetenschappelijk onderzoek in vinden. Deze API licentie gaat primair over het kunnen vertonen van tweets in je eigen dienst, eventueel licht gemasseerd om ze passend te krijgen. Het is bijvoorbeeld expliciet verboden de berichten op te slaan, wat onderzoek al bemoeilijkt – helemaal voor het verifieerbaar maken van je onderzoek want je mag de dataset dus niet vrijgeven.

Op zich is dat legaal. Een dienstverlener mag zelf weten wat ze toestaat met de resultaten van haar dienst, er is geen regeling zoals de auteursrechtelijke uitputting die bepaalt dat beschermde producten zoals boeken of kranten vrij bruikbaar zijn voor legale verkrijgers.

In de praktijk lijkt het wel mee te vallen. Ik heb nog nooit gezien dat Twitter een sommatie stuurde naar een researcher, en kan me dat (afgezien van research dat de servers overbelast) ook eigenlijk niet voorstellen. Twitter zou er weinig mee te winnen hebben en veel te verliezen. Maar afhankelijk zijn van een welwillende opstelling van een dienstverlener is natuurlijk wat anders dan iets mógen.

Arnoud