Google-medewerkers luisteren Nederlandse gesprekken mee, is dat erg?

| AE 11388 | Informatiemaatschappij | 13 reacties

Medewerkers van Google luisteren gesprekken mee die Nederlanders voeren met hun slimme Google-assistent, zonder dat Google daar vooraf duidelijkheid over geeft. Dat meldde de NOS vorige week. Het gaat om fragmenten van gesprekken die door de AI-assistent niet werden verstaan; een mens maakt dan een transcriptie waar de AI van kan leren. Vanuit technisch perspectief volkomen normaal, als een AI een fout maakt dan is menselijk bijleren de enige manier om dat op te lossen. En zo te lezen gaat het om fragmenten zonder verdere koppeling aan Google ID of feedback naar je interesseprofiel. Desondanks een relletje, ik denk omdat mensen zich nu beseffen dat zo’n kastje niet gewoon een slim ding is dat je verstaat, maar een microfoon met héle lange kabel waar gewoon mensen een koptelefoon bij opzetten. Is dat nou erg?

De zaak is aan het rollen gekomen omdat een Google-medewerkers fragmenten deelde met de NOS, omdat “het belangrijk is dat mensen beseffen dat er mensen meeluisteren”, zo stelt de anonieme Google-medewerker. Nieuwswaardig was dat zeker: een hoop mensen blijkt ineens zeer verbaasd en geschokt dat er dus kennelijk meegeluisterd wordt.

Maar zoals gezegd, “meeluisteren” is een groot woord. Er zit niet ineens een man met gleufhoed en koptelefoon de hele dag gezellig te luisteren. Er worden fragmenten geüpload naar Google waar medewerkers dan een transcriptie van maken, zodat de spraakherkenning-engine opnieuw getraind kan worden. Daarbij gaat het echt alleen om algemene, veel gebruikte termen – met de bijnaam voor je geliefde of de geluiden van het ontbijt kan Google Home toch niets.

Maar ja, meeluisteren is het. Want er is dus wel een mens dat dat gesprek beluistert, ook al is dat met complete desinteresse en uitsluitend gericht op een betere herkenning van “uitsluitend” met Goois of Limburgs accent, of iets dergelijks. Ik snap dus desondanks de ophef wel. Je koopt zo’n kastje inderdaad omdat je wil dat er iemand meeluistert en dingen doet met wat je zegt – dat is de sales pitch van het apparaat. Maar de ‘iemand’ is dan een kastje, een apparaatje, een digitale butler. Niet een medewerker. In een winkel vind ik het ook fijn om de prijs van een pot pindakaas te kunnen scannen, maar dan wil ik niet een medewerker achter me hebben staan die zegt “oh de pot van een liter is in de bonus”. Of zelfs maar die glazig meekijkt. Dat is niet de afspraak bij het gebruik van zo’n apparaat.

Mag dat? De NOS vertelt:

Mensen die Google Home of Assistent installeren worden er niet op gewezen dat mensen de spraakopdrachten af kunnen luisteren. Wel staat in de algemene voorwaarden van Google dat het bedrijf “audiogegevens” verzamelt. Dat deze kunnen worden afgeluisterd door mensen, en dat er per ongeluk ook andere gesprekken kunnen worden opgeslagen, blijft onvermeld.

De juridische discussie is dan, is hiermee mensen “duidelijk en in eenvoudige taal” uitgelegd dat dit kon gebeuren? Ja zal Google zeggen, het staat in de privacyverklaring en die moet je gewoon even lezen. Plus je weet dat die apparaten meeluisteren dus dan is het raar om ineens te zeggen, ik wilde niet dat hij meeluisterde.

Hier wreekt zich dan het verschil tussen juridische compliance en de praktijk. Ik geloof graag dat die zin over audiogegevens verzamelen voldoet aan taalniveau B2 van het Europees Referentiekader Talen en dus “duidelijk en eenvoudig” is, in de zin dat mensen de term “audiogegevens” kennen. Maar het gaat natuurlijk om de implicaties, kunnen overzien hoe ver het gaat met dat verwerken van audiogegevens. En dat is waar de ophef vandaan komt, ook bij mensen die superveel delen op social media (de standaard tegenwerping als mensen bij Google klagen over privacy), je hebt een bepaalde verwachting van privacy en die wordt geschonden.

Arnoud

Facebook overtreedt mogelijk AVG door medewerkers posts te laten labelen

| AE 11265 | Ondernemingsvrijheid | 13 reacties

Facebook overtreedt mogelijk de Europese privacyverordening AVG door medewerkers van daarvoor aangestelde bedrijven te laten kijken naar posts om ze te labelen. Dat las ik bij Tweakers maandag. Een team van 260 mensen uit India leest al jaren alle berichten (inclusief foto’s) om die van labels te voorzien, zo ontdekte Reuters namelijk. Die labels classificeren de berichten in vijf “dimensies”, zodat Facebook kan leren van wat mensen posten en hoe daarop in te springen. En er zal ook vast een AI mee getraind worden. De privacyzorg zit hem dan in het feit dat er geen aparte toestemming is gevraagd voor dit labelen. Maar moet dat dan, van de AVG?

De AVG kent inderdaad de eis van toestemming – maar naast toestemming zijn er nog vijf zogeheten grondslagen om met persoonsgegevens te werken. Als je gegevens bijvoorbeeld nodig hebt om een contract af te handelen, dan heb je geen toestemming nodig. Webshops die aanvinkvakjes inbouwen met “ik geef toestemming bovenstaande gegevens te gebruiken om mijn bestelling te behandelen” snappen er dus niets van. Die toestemming is helemaal niet nodig.

De controversieelste grondslag is die van het “eigen gerechtvaardigd belang”. Dan zeg je namelijk, ik heb een belang als bedrijf om dit gewoon te gaan doen, maar ik heb wel rekening gehouden met je privacy door maatregelen A en B te nemen. Controversieel, omdat je hiermee eigenlijk weigert de ander te vragen om toestemming en veel mensen gewoon verwachten dat je toestemming vraagt waar nodig. Maar ook weer gerechtvaardigd omdat je soms nu eenmaal geen toestemming kúnt vragen. Een triviaal voorbeeld is camerabewaking of fraudedetectie in je betaalpatronen.

Facebook vraagt dus geen toestemming om berichten die post (of als privébericht verstuurt) voor te leggen aan haar labelingsteam. Dat zouden ze dus moeten rechtvaardigen onder dat eigen belang. Het belang zie ik: je herkenning van soorten berichten verbeteren is een wenselijk en nuttig doel, zeker gezien de druk op Facebook om terrorismeverheerlijking, nepnieuws, opruiing en dergelijke te kunnen detecteren en weren.

De discussie die je dan krijgt, is in hoeverre Facebook dit kan rechtvaardigen. En dat komt vaak neer op hoe zeer men rekening houdt met de privacy van personen. Mijn juridische onderbuik zegt dat een bericht tonen aan een intern team dat er een label op plakt (pardon, “verrijkt met een AI-ready dimensie”, dank u marketingafdeling) niet heel erg een inbreuk op de persoonlijke levenssfeer is. Het label heeft geen enkel gevolg voor het bericht zelf, dit wordt niet verwijderd of aangepast op basis van de beoordeling. Plat gezegd, hier merk je niets van.

Twijfel heb ik wel bij het stukje van de privéberichten, want ook die worden gelezen. Het voelt principieel niet juist om een direct bericht tussen A en B te lezen en te taggen, ook niet als die tag verder nergens gebruikt wordt. Dat is gewoon privé, afblijven. Maar ik kan niet ontkennen dat ook hier het argument “je merkt er niets van” opgaat.

Arnoud

AIVD en MIVD maken rechtmatig gebruik van persoonsgegevens in bulkdownloads

| AE 10401 | Regulering | 25 reacties

De inlichtingendiensten AIVD en MIVD gaan “rechtmatig” om met datasets met persoonsgegevens die online worden aangeboden. Dat las ik vorige week bij Nu.nl. Deze conclusie volgt uit het rapport 55 over het verwerven van op internet aangeboden bulkdatasets van de Commissie van Toezicht op de Inlichtingen- en Veiligheidsdiensten. Dat “online aangeboden” moet je met aanhalingstekens uitspreken, want het gaat eigenlijk om gelekte of gestolen gegevens die op schimmige plekken te verkrijgen zijn. Maar voor de inlichtingendiensten is dat dus geen probleem.

Het klinkt ergens gek, maar ook de AIVD en haar militaire broertje de MIVD moeten de privacy respecteren van mensen die ze bespioneren. Dat betekent dus dat het gebruiken van ‘gevonden’ datasets met persoonlijke informatie niet zomaar kan, met name omdat daar ook veel gegevens in zullen zitten van mensen die in het geheel niet in beeld zijn bij de inlichtingendiensten.

Het gebruik van die persoonsgegevens is geregeld in de Wet op de Inlichtingen- en Veiligheidsdiensten, waarvan editie 2002 van toepassing was op de vergaring. (En editie 2017 is de beruchte ‘sleepwet’.) De bevoegdheden zijn een stuk breder dan voor gewone burgers of overheidsinstanties. Kort gezegd mag er veel meer zolang het maar enigszins gedocumenteerd wordt en het gebruik netjes wordt bijgehouden.

Zo is er een openbronregeling die bepaalt hoe men informatie uit open bronnen mag betrekken, waarbij het niet uitmaakt of die bron de gegevens legaal of illegaal publiceert. Daarbij is het zelfs toegestaan om je te registreren onder een valse naam en dan te zien wat er te downloaden is; de grens ligt bij de aanbieder overhalen tot het verstrekken van de bron. Dat mag ook maar valt onder de agentregeling met net iets strengere eisen.

Aanleiding voor het onderzoek was dat de diensten bestanden hadden gekocht op het “dark web” (/insert omineuze muziek) met gegevens over meer dan honderd miljoen personen, waarvan het overgrote deel nooit en te nimmer relevant zou zijn voor het inlichtingen- en veiligheidswerk. Het ging daarbij om vertrouwelijke informatie die onrechtmatig in die bestanden terecht was gekomen en die normaal nooit zomaar bekend zou zijn.

De AIVD had die gegevens snel opgehaald omdat ze vermoedden dat die zomaar weggehaald zou kunnen worden, en deed dat onder de openbronregeling omdat ze dachten dat het dark web daaronder viel. Maar omdat het feitelijk een aankoop van een bestand was, had dit onder de agentregeling moeten gebeuren. Dat ging dus mis, maar betekent uiteindelijk weinig omdat -zo concludeert de commissie- het onder de agentregeling legaal zou zijn geweest. Belangrijk was daarbij ook dat er op hoog niveau toestemming was gegeven voor de aankoop.

Bij een tweede dataset van vergelijkbare omvang en inhoud ging het mis. Daar werd die toestemming niet op dat niveau gevraagd, en was niet duidelijk hoe men daar precies aan gekomen is. Uiteindelijk heeft dit geen gevolgen, omdat het gebruik verder netjes binnen de lijntjes blijft en het waarschijnlijk was dat er toestemming zou zijn gegeven.

De totale uitkomst verrast dus niet. Over blijven aanbevelingen om zorgvuldiger met de gegevens om te gaan, en jaarlijks te bekijken of de datasets nog nuttig zijn in de praktijk. En meer algemeen om beleid te maken over hoe om te gaan met downloaden of aankopen van datasets als deze. En dat is hoe het eigenlijk altijd gaat met zulke dingen: het mocht niet, maar de schade lijkt beperkt en als er dan beleid op komt, dan is het goed.

Arnoud

Mag je de Twitter API scrapen voor wetenschappelijk onderzoek?

| AE 8877 | Intellectuele rechten | 9 reacties

Een lezer vroeg me: Deze meneer heeft een mooie data-analyse gemaakt van Donald Trump zijn tweets: Trump zelf gebruikt een Android-apparaat en een ghostwriter nuanceert de boel vanaf een iPhone. Daarbij vroeg ik mij af of dit zomaar mocht. Twitter zegt van wel bij onderzoeksdoeleinden (onder bepaalde voorwaarden). Zoals dat je je dataset niet mag… Lees verder