Hoe datarommel van mobieledataharkbedrijf App Annie tot een boete van de beurstoezichthouder leidde

geralt / Pixabay

Mobieledataverzamelbedrijf App Annie heeft voor 10 miljoen met de Amerikaanse beurswaakhond SEC geschikt, las ik bij The Verge. Ik kende ze ook niet, maar App Annie “produceert business intelligence tools en markt rapportages voornamelijk voor de app industrie”. Ze verzamelt data zoals Google Analytics bij aangesloten bedrijven, inclusief data over gebruik van de mobiele apps van die bedrijven, zodat die meer inzicht in hun appgebruik kregen. Tevens kon App Annie die data aggregeren en zo doorverkopen aan bijvoorbeeld beleggers die willen weten hoe een bepaalde branch ervoor staat. En daar ging het mis: men verkocht niet keurig enkel de geaggregeerde data.

De schikking legt uit waar het precies misging:

The order finds that App Annie and Schmitt understood that companies would only share their confidential app performance data with App Annie if it promised not to disclose their data to third parties, and as a result App Annie and Schmitt assured companies that their data would be aggregated and anonymized before being used by a statistical model to generate estimates of app performance. Contrary to these representations, the order finds that from late 2014 through mid-2018, App Annie used non-aggregated and non-anonymized data to alter its model-generated estimates to make them more valuable to sell to trading firms.
App Annie kreeg dus individuele data van bedrijven, maakte daar een statistisch model van voor sectoren en corrigeerde dat met de originele, individuele data. Vervolgens had ze heel goed passende modellen, waar beleggers gretig voor betaalden. Maar dát is natuurlijk niet de afspraak.
“App Annie sought to distinguish itself in the alternative data space by providing securities market participants with valuable information in a new and innovative way,” said Erin E. Schneider, Director of the SEC’s San Francisco Regional Office. “It went to great lengths to assure its customers that the financial and app-related data it sold was the product of a sophisticated statistical model and that it had controls to ensure compliance with the federal securities laws. These representations were materially false and misleading.”
Het bedrijf moet stoppen, en de CEO mag drie jaar lang niet in een dergelijke functie bij een beursgenoteerd bedrijf werken.

Het laat voor mij zien hoe lastig is het is om goede grip op data-hergebruik door derden (verwerker of niet, in de zin van de AVG) te krijgen. Want je kunt afspreken wat je wilt, maar als die data elders is dan heb je er vervolgens geen zicht meer op. Dit is ook waarom ik altijd zeg dat je onder de AVG niet kunt vertrouwen op welke contractuele afspraak, garantie of vrijwaring dan ook. Ga het na, en lever bij voorkeur gewoon géén individuele data.

Arnoud

 

T-Mobile deelde herleidbare locatiegegevens met CBS voor bouwen van algoritme

T-Mobile heeft jarenlang niet-anonieme gebruikersgegevens gedeeld met het Centraal Bureau voor de Statistiek, meldde Tweakers onlangs. Deze werden gebruikt om een algoritme te bouwen waarmee mensenstromen in kaart werden gebracht. NRC Handelsblad onderzocht een overeenkomst uit 2017 tussen de twee, waarbij het slechts „een pilot-project”, zou zijn waarbij alleen met „geanonimiseerde” gegevens zou zijn gewerkt. Dat blijkt dus niet waar, zo ontdekte de krant met een beroep op de Wet Openbaarheid van Bestuur, die daarmee een verontrustend inkijkje gaf in de manier waarop het CBS en T-Mobile met de privacy van bellers omgingen.

In 2017 ging het CBS een samenwerking met T-Mobile aan. Het doel was een algoritme ontwikkelen dat op basis van de locatiedata van één mobiele provider het mobiliteits- en verblijfsgedrag van Nederlanders kan meten. En dat noemen we dan wel “algoritme” maar het gaat natuurlijk om big data machine learning: gooi een grote bak met data in een opgevoerde versie van Excel en kijk hoe de grafiekjes lopen. En ja, dat werkt alleen met hele grote bergen data, en daarbij moet je per datapunt zo veel mogelijk informatie hebben. Het CBS aasde daarom niet alleen op telecomgegevens, maar ook op „data over betalingen” van banken en op andere informatie, wat je ‘verrijking’ kunt noemen of ‘datagraaien’ afhankelijk van aan welke kant je staat.

In het contract met het CBS staat dat T-Mobile „de methode voor het bepalen van locatiegegevens ook voor eigen doeleinden” mag gebruiken, „zowel tijdens als na de pilot”. Maar geen zorgen, „De data zijn zo privacygevoelig dat als er één partij vertrouwd kan worden om dit te analyseren … dan is dat het CBS”, aldus het businessplan.

En dan val ik van mijn stoel want dan blijkt men het verschil tussen pseudoniem en anoniem niet te kennen. Cruciaal, want de AVG is van toepassing op pseudonieme data – maar niet op anonieme. Dus wat krijg je dan, dat iedereen zegt dat de data anoniem is. Maar ik heb hier een AI die met 95% accuratesse voorspelt dat jouw data niet anoniem is maar alleen gepseudonimiseerd*. En ja hoor: “de unieke IMSI-nummers van mobiele toestellen zijn vervangen door andere nummers.” Dat is klassiek pseudonimiseren en nadrukkelijk niét anonimiseren. Ook niet als die andere nummers random zijn. Met de rest van de data is nog méér dan genoeg analyse te doen om over personen uitspraken te kunnen doen.

Gebruikers werden niet op de hoogte gehouden van de plannen. Wel werd de samenwerking besproken met de toezichthouders, maar daarbij werd niet verteld dat er toegang was tot niet-anonieme gegevens. Het Agentschap Telecom gaat, samen met de Autoriteit Persoonsgegevens, nu onderzoek doen naar het datadelen.

Arnoud * De AI zegt altijd “dit is pseudonimiseren” en dat klopt 95% van de tijd. Waar haal ik mijn VC funding voor deze GDPR Compliance Lawyerbot?