Overheden verzamelen op grote schaal tweets zonder gebruikers te informeren

OpenClipart-Vectors / Pixabay

Overheidsinstanties zoals het ministerie van sociale zaken, de Belastingdienst en de Nederlandse Voedsel- en Warenautoriteit (NVWA) verzamelen op grote schaal tweets over onder andere hun beleid zonder Twittergebruikers hierover te informeren. Dat meldde Security.nl onlangs op gezag van onderzoek door AG Connect en Trouw. Het gaat om sentimentanalyse, data-analyse waarbij bakken met tweets zeg maar als “positief” of “negatief” worden gelabeld zodat je kunt zien hoe je beleid valt bij de mensen. Ook hier heerst dus die misvatting dat dat mag omdat Twitter openbaar is. Kunnen we eens ophouden met “ja maar openbare bron” als argument?

Het idee achter sentimentanalyse is dat je op basis van grote datasets de werkelijkheid kunt meten, en dat dat een stuk goedkoper/makkelijker is dan steeds een enquête eruit doen of 1200 Nederlands bellen. Waar zeker wat in zit, en we hebben ook genoeg tools (zoals van Microsoft) die op basis van statistische tekstanalyse kunnen zeggen of een tweet over een onderwerp gaat en daar dan positief of negatief over is. Dat kun je dan over de tijd meten, groeperen naar locatie van gebruikers (Randstad versus de provincie, bijvoorbeeld), groei of daling signaleren en ga zo maar door.

Punt is natuurlijk wel, dat begint allemaal bij een enorme verzameling berichten van Twitter. En tweets (met Twitternaam) zijn nu eenmaal persoonsgegevens en dus valt het verzamelen en tot sentimenten omturnen van die gegevens onder de AVG. Mag dat? Ja, in principe wel: dit is een vorm van wetenschappelijk en statistisch onderzoek en dat kun je binnen de grondslag van het gerechtvaardigd belang (art. 6 lid 1 sub f AVG) prima rechtvaardigen. (Ook bij overheden, omdat dit niet gaat om uitoefening van een publiekrechtelijke taak.) Toestemming van de twitteraars is dus niet nodig.

Wat wél nodig is, is dat mensen worden geïnformeerd over dit verdere gebruik. Dat staat gewoon in de AVG, en is iets dat altijd moet bij data harvesting. Ik geef toe dat dit bij een klantanalyse wat makkelijker is, daar zet je het in je privacyverklaring of je stuurt een update in het portaal. Bij dit soort gebruik van Twitterdata is er maar één manier en dat is iedereen een tweet sturen (DM’s sturen kan niet altijd). Daar zouden we gek van worden als iedereen dat deed, maar dat is voor een individuele organisatie niet disproportioneel of onmogelijk. (Bij data-verzameling met een drone of sensoren op straat is het natuurlijk een ander verhaal qua complexiteit, dus dan is een bordje of banner genoeg.)

Ik zie in de reacties her en der boosheid met het argument “kom op, Twitter is openbaar en iedereen doet het”. Dat laatste is vast waar, maar verandert niets aan het punt dat de makkelijke toegankelijkheid van de bron géén argument is onder de AVG. Je bent niet vogelvrij omdat men kan scrapen zonder ingewikkelde contracten of toelatingsprocedure. En vanuit juridisch perspectief zou dat ook heel raar zijn, dat het legaal is om iets te doen omdat het heel makkelijk is, en dat alleen bij moeilijk scrapen je mensen zou moeten gaan informeren of zo?

Arnoud

 

40 reacties

  1. Ik was je toch nog even kwijt bij “tweets zijn nu eenmaal persoonsgegevens”. Misschien nog als je de afzender (Twitterhandle) betrekt in het onderzoek, maar de tweet zelf? “Ik ben echt tegen glasbakken in ons dorp”, hoe is dat “nu eenmaal persoonsgegevens”? Rek je dan de definitie niet erg ver op?

          1. Jawel maar het moet wel tot een persoonsgegeven te herleiden zijn. “De nieuwe omgevingswet is volkomen prut!” is geen persoonsgegeven, want wie zegt dat? De combinatie { cg, “De nieuwe omgevingswet is volkomen prut!” } is wél een persoonsgegeven en inderdaad een bijzonder persoonsgegeven ook nog.

            1. Maar als je in memory de tekst van de tweet (zonder enige @xxxx er in) door je machine learning haalt en dan een +1 in kolom positief of negatief zet en alleen die twee tellers bewaart? Ja technisch verwerk je dan potentieel persoonlijke data maar om dan een miljoen mensen een tweet te sturen waarbij je sommige mensen 50 keer gaat tweeten is dat in zo’n geval niet disproportioneel? Of ik moet veel meer op gaan slaan want ik moet een queue bouwen met alle @handles van tweets die ik bekeken heb en dan de-dupliceren voor alle mensen die meer dan een tweet hebben gestuurd.

              Waarschijnlijk wil je wel de hele tweet zodat je ook kan filteren op @OmeHenk die 4000 tweets heeft gepost over de kinderen op zijn gazon!!! en om de @gh682389-0984 t/m @gh987836-8276 bots er uit te filteren.

              Uitdaging blijft dat twitter “more than 130 million low-quality, spammy Tweets.” tegen houdt. https://blog.twitter.com/en_us/topics/company/2018/how-twitter-is-fighting-spam-and-malicious-automation

      1. Edit: D’oh, had over Richard’s reactie heen gelezen, onderstaande punt is al aangestipt en beantwoord.

        Is een letterlijke tekst van een tweet niet nog steeds indirect herleidbaar naar een persoon omdat de tekst vindbaar is op twitter en daar gekoppeld staat aan de twitter-handle? En daardoor nog steeds een persoonsgegeven, zelfs als je letterlijk alleen de tekst aangeleverd zou kunnen krijgen van twitter? De overweging of het verwerken tot een bak statistische positief/negatief getalletjes onder gerechtvaardigd belang proportionele inbreuk is valt dan misschien nog eerder uit in het voordeel van de verwerker, maar ik zou verwachten dat de AVG nog steeds van toepassing zou zijn.

        1. Zeker, zoals ik om 10:20 aangaf is dit zeker genoeg voor ‘herleidbaarheid’. Hetzelfde zou trouwens gelden voor de reacties op deze blog, wie dus deze teksten copypaste (zonder de namen van de plaatsers) verwerkt persoonsgegevens want googel de tekst tussen aanhalingstekens en je hebt deze bron met identificatoren erbij. Of je dan “Pol”, “Wim69375498046907” of “Arnoud Engelfriet” erbij zet, maakt dan niet uit.

  2. Je zou naar analogie kunnen proberen aansluiting te zoeken bij BW 5:19, het prijsgeven van roerende zaken, en argumenteren dat de privacyaspecten van kennelijk zijn prijsgegeven door het plaatsen op twitter.

    Je zou ook kunnen argumenteren dat de gemiddelde tweet zodanig laag scoort op privacy-gerelateerde aspecten, en niet individueel gebruikt wordt maar als onderdeel van een grotere analyse, dat een dergelijk gebruik sowieso buiten het werkingsgebied van de AVG valt (waar Thijs ook al op hint). Met andere woorden: de individuele tweet is slechts ruis, de analyse leidt (mogelijk) tot patronen in de ruis.

    1. Het punt is: de AVG gaat niet over privacy, maar over dataverzameling en -verwerking. Of die data aan je privacy raakt, is juridisch irrelevant. De hele discussie is grofweg te herleiden tot de volkstellingen in de jaren zestig en zeventig, waarbij met name in Duitsland daar een keihard Nein tegen kwam. Om nou te zeggen dat geteld worden je privacy raakt, nee, maar het voelt wel ongemakkelijk, gevaarlijk misschien dat de overheid alles over burgers vastlegt. Dus je moet het echt zien als een apart rechtsbeginsel, dat men niet zomaar gegevens over mensen verzamelt.

  3. Gaat het hier niet juist om de uitvoering van een publieke taak? Verwerking buiten de publieke taak lijkt mij – om het klassieke voorbeeld de 21e eeuw in te sleuren – de burgemeester die berichten op Twitter analyseert om uit te vinden waar hij de beste pennen kan kopen voor zijn ambtenaren. In dat voorbeeld is de analyse van Twitterberichten m.i. onderdeel van een privaatrechtelijke handeling van een bestuursorgaan/ambtsdrager. Maar een overheidsorgaan dat berichten analyseert om te kunnen bepalen hoe onderdanen aankijken tegen de wijze waarop die overheid zijn publiek rechtelijke taak uitvoert, lijkt mij dusdanig verweven met die publiek rechtelijke taak, dat de analyse onlosmakelijk is verbonden met die publieke taak.

  4. Wat wél nodig is, is dat mensen worden geïnformeerd over dit verdere gebruik. Dat staat gewoon in de AVG, en is iets dat altijd moet bij data harvesting

    AVG artikel 14.5(b) zegt (…) niet van toepassing wanneer en voor zover (…) het verstrekken van die informatie onmogelijk blijkt of onevenredig veel inspanning zou vergen

    Dan zeg jij “Bij dit soort gebruik van Twitterdata is er maar één manier en dat is iedereen een tweet sturen (DM’s sturen kan niet altijd). Daar zouden we gek van worden als iedereen dat deed, maar dat is voor een individuele organisatie niet disproportioneel of onmogelijk”

    Maar dat betwijfel ik. Iedereen een bericht sturen lijkt me wel disproportioneel, en met rate limits en Twitter AV wellicht ook onmogelijk.

    1. Waarom is het disproportioneel om iedere twitteraar een bericht te sturen? Welke maatstaf hanteer je dan voor proportionaliteit, gaat het dan om de kosten, de hoeveelheid werk bij de verzamelende instantie, waar zit dit hem in?

      Het gaat me te snel om te zeggen “ik heb van een miljoen mensen gegevens, dat is te veel om iedereen te informeren dus ik mag dit doen zonder informeren”. Als jij veel berichten verzamelt dan los je dat probleem maar op of je verzamelt ze niet.

      1. Toch is dat waar overweging 62 expliciet ruimte voor schept, zeker wanneer het gaat om “archivering in het algemeen belang, wetenschappelijk of historisch onderzoek of statistische doeleinden”.

        “inspanning” duidt mijns inziens op kosten en hoeveelheid werk, (voor zover dat niet hetzelfde is). Als het duizend keer zoveel moeite is om iedereen te berichten dan enkel de data te verzamelen, en dat is niet disproportioneel, wat dan wel? En ja, waar leg je de grens? Ik zou zeggen dat disproportioneel al begint bij een factor 10. De term disproportioneel legt ook bewust een relatie tussen de verhoudingsgewijze inspanning voor informeren t.o.v. de inspanning voor verzamelen.

        1. Maar hoe veel werk ís het dan om een Tweet te sturen? Ik snap van rate limiting dat je niet in 5 minuten alles stuurt, maar je hebt al die berichten via een API verkregen, je hebt dus gestructureerd al die usernames en de message ID’s, het is dan toch tien minuten werk om een script te maken dat een reply stuurt met “Hoi $username we hebben je tweet gebruikt zie http://example.com/privacy voor details”? Dat het script dan een week nodig heeft vanwege de limiet bij Twitter is toch niet erg?

          Ik zit er gewoon heel erg mee dat het erop lijkt dat als je maar genoeg data verzamelt, je niet meer hoeft te informeren. Dat kan niet de bedoeling zijn van de AVG. Er moet meer zijn. Misschien iets als, wanneer je de berichten zo snel mogelijk anonimiseert, dat het dan overdreven is alsnog te gaan informeren?

          1. Ik vraag me af hoe lang het mogelijk is om via de Twitter-API de facto volcontinu berichten te sturen die (op de handle na) identiek zijn. Ik acht de kans best reëel dat dat héél snel als bot gezien gaat worden (wat het natuurlijk ook gewoon is) waarna de API-rechten ingetrokken worden (en/of het versturende account op slot gaat). Los daarvan kan ik me ook goed voorstellen dat deze berichten door individuele gebruikers individueel gerapporteerd zullen worden (terecht of onterecht in het midden gelaten).

          2. Zonder de hele dag door te gaan met scherpslijpen denk ik dat we kunnen stellen dat er een – nog grijs gebied – bepaalde set voorwaarden mogelijk is (cf artikel 14.5b en recital 62, want die zijn duidelijk bedoeld om die mogelijkheid te scheppen) waarin informeren niet hoeft, en dat “dat mensen worden geïnformeerd (..) en is iets dat altijd moet bij data harvesting” net ietsje te kort door de bocht gaat.

          3. Het disproportionele zit niet aan de zendende maar aan de ontvangende kant. Zeker als iemands account voor veel van dat soort systemen interessant is en dus bij iedere tweet tientallen of honderden DM’s krijg. Je kan zoiets bijna een DOS attack noemen.

            1. De ontvangende kant (de betrokkene) is niet aan de AVG gebonden, de verzendende kant wel (de verantwoordelijke) wél. Jij meent dat de ontvanger zich op het standpunt kan stellen dat het disproportioneel is als een verantwoordelijke zich aan een (vermeende) verplichting tracht te voldoen?

          4. Overweging (62) van de AVG zegt ook: “wanneer de betrokkene al over de informatie beschikt”.

            M.i. is dat hier zo: als je je mening geeft op een openbaar medium zoals Twitter, dan weet je dat die mening gelezen kan worden, ook door overheden en data-aggregators. Dus is individueel informeren niet nodig.

  5. Toen het (in de media) een paar maanden terug ging over het ‘volgen van burgers en politici op Twitter door de overheid’ werd er een vergelijking gemaakt met een knipselkrant. Bij een knipselkrant heb je een ijverige ambtenaar die ’s ochtends alle kranten doorneemt en alle stukken met betrekking tot de beleidsterreinen van de minister uit de krant knipt en in 1 verzamelmap stopt.

    Daar zouden dan ook zo maar ingezonden brieven etc. tussen kunnen zitten. Zou dat dan ook verboden zijn? Of gelden daar andere kaders voor?

    In ieder geval kan ik me voorstellen dat het informeren van die mensen net iets minder makkelijk zou zijn dan op Twitter. Maar of dat dan doorslaggevend is(?).

  6. Is dit wel een AVG kwestie?

    Tweets zijn openbare auteursrechterlijk beschermde meningsuitingen. As het auteursrecht dat toelaat kun je die gewoon verzamelen net zoals je krantenknipsels kan verzamelen.

    Je kunt volgns mij geen privacy claimen over openbare meningsuitingen die al door auteursrecht zijn beschermd.

    Als ik morgen een lijst van citaten uit boeken ga vastleggen met daarbij de naam van de schrijver mag dat volgens mij ook omdat het auterusrecht dat toelaat. Het kan toch niet zijn dat de AVG dat zou verbieden.

    1. De AVG staat als wet los van andere wetten. Omgekeerd ook: stel je hebt persoonsgegevens van een overledene, dan is de AVG vervallen maar kan het auteursrecht op die verzameling nog wel bestaan (mits creatief en zo). Het is toch niet raar dat er twee of meer wetten zijn die iets regelen?

      Het voelt voor mij een beetje alsof je zegt “op straat geldt al het Wetboek van Strafrecht dus hoezo heeft de Wegenverkeerswet iets te zeggen over wat ik op straat doe”?

      1. Ik vind dat niet hetzelfde. De AVG gaat over privacybescherming. Is het redelijk om privacybescherming te verwachten voor het doen van publiekelijke meningsuitingen die al auteursrechterlijk beschermd zijn.

        En hoe zit het dan met het aanleggen van een lijst van citaten uit boeken met namen van auteurs? Mag dat of niet?

        1. Ik zie niet in wat auteursrechtelijke status te maken heeft met privacybescherming. Je kunt prima iemands privacy schenden door in een (auteursrechtelijk beschermd) boek dingen over die persoon te maken heeft, bijvoorbeeld. Het zijn twee sets regels die allebei een onderwerp kunnen treffen.

          Je noemt in je argument tegelijkertijd “publiekelijke” en “auteursrechtelijk”, dat vind ik ook zeer verschillende argumenten. Als het ging om WhatsApp-berichten (dus besloten kleinschalige chats), had je dan ook gezegd “Is het redelijk om privacybescherming te verwachten voor het doen van meningsuitingen die al auteursrechterlijk beschermd zijn”? (Neem even aan dat de chats beschermd zijn.) In die context voelt dat raar, blijf van mijn chats af.

          Het argument van “publiek” is hierboven al besproken.

  7. Na het lezen van de eerste alinea denk ik spontaan “Natuurlijk mag dat, wat kan daar nou tegen zijn? Met privacy heeft dat niks te maken. Mensen uiten vrijwillig in het openbaar hun mening, dan kan die mening ook gehoord en gebruikt worden, dat is logisch.”

    Zelf hoop dat bijvoorbeeld mijn getweete kritiek op belastingdienst, GGD en RIVM, over onhandige procedures en nodeloze papierverspilling, ook door ze opgepakt wordt, om misschien dingen te verbeteren. Mede daarom tweet ik ze. Ik denk wel meer mensen.

    Maar kennelijk is dat in deze tijd, met o.a. het sentiment “privacy gaat boven alles, zelfs boven het streven naar beleidsverbetering ” helemaal fout gedacht.

    Goed, nu maar eens verder lezen om te zien andere kanten er aan de kwestie zitten.

    1. Nog even een doordenking ad adsurdum: straks komt het nog zo ver dat als je een klacht indient bij bijvoorbeeld een artibragecommissie, je standaard een briefje terugkrijgt “Sorry, wij kunnen uw klacht niet in behandeling nemen, want dan zouden wij een persoonsgegeven van u, namelijk uw adres en uw mening, verwerken, en dat mag niet van de AVG.”

  8. Daar zouden we gek van worden als iedereen dat deed, maar dat is voor een individuele organisatie niet disproportioneel of onmogelijk.

    Dus naast de enorme overlast van de cookiemeldingen krijgen we nu straks ook nog dit erbij. Sorry, ik ben hier echt tegen. Dus lost niets op en is niet in het belang van de mensen.

    Ik zie in de logs van mijn website ook krankzinnig veel bots die het hele internet crawlen. Veel meer dan alleen Googlebot en Bingbot. Moeten die eigenlijk ook allemaal een mail aan de webmaster gaan sturen om die te informeren? Dat zou ik spam vinden. Mijn webstukjes bevatten net als mijn tweets vaak mijn mening, dus zijn persoonsgegevens.

    Maar ik publiceer ze (net als deze reactie) in de wetenschap dat iedereen die dat wil ze kan lezen, dus daar wil ik NIET apart over geïnformeerd worden als dat gebeurt.

  9. Bij medische gegevens en die over geaardheden is er toch een uitzondering voor het geval dat iemand zelf bewust daar in het openbaar over vertelt? (Ja: artikel 9 lid 2e.) Zou zoiets er ook kunnen of moeten komen bij een eerstvolgende herziening van de AVG, maar dan algemener over meningen?

    Plus de botsing met grondrechten: uitingsvrijheid heeft als tegenhanger de informatievrijheid: mensen mogen vrij kennis nemen van de mening van anderen. Als individuen dat mogen, waarom organisaties dan niet? Het klopt gewoon niet, zo voel ik dat.

    1. Artikel 9 AVG, lid 2e luidt: “Lid 1 is niet van toepassing wanneer aan een van de onderstaande voorwaarden is voldaan: […] e.) de verwerking heeft betrekking op persoonsgegevens die kennelijk door de betrokkene openbaar zijn gemaakt;”

      Zo’n uitzondering voor minder gevoelige persoonsgegeven vind ik zo snel niet. Dan zouden dus medische en geaardheidsgegevens minder streng beschermd zijn dan mijn her en der rondgestrooide mening dat de belastingdienst te veel papieren brieven verstuurt?

      Dat kan toch haast niet waar zijn.

      1. Ik maakte indertijd (mei 2018) uit de AVG op dat ik voortaan bij het pinnen bij de supermarkt er elke keer over geïnformeerd zou moeten worden, dat mijn bankrekeningnummer en het bedrag van mijn aankoop gedeeld gaan worden met de Bankgirocentrale (of hoe ze inmiddels nu weer heten) en mijn bank.

        Gelukkig doet geen enkele winkel dat. Maar ik denk nog steeds dat het naar de letter van de wet wel moet.

    2. Zie het zo: bijzondere pg zitten achter slot (artikel 6) en grendel (artikel 9). Als je je op artikel 9 lid 2e kunt beroepen is de grendel eraf. Maar je moet nog steeds het slot open kunnen maken – een grondslag kunnen benoemen. Als ik hier zelf zeg heteroman te zijn, geeft jou dat geen AVG-grondslag dit door te vertellen in een elektronisch medium. Je moet dan bijvoorbeeld nog zeggen, ik heb vrijheid van meningsuiting, dat is een legitiem belang (artikel 6f AVG) en de privacy-afweging valt in mijn voordeel uit want dit feit heeft nieuwswaarde. Of zoiets.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.