Mag je persoonsgegevens gebruiken om een AI mee te trainen?

| AE 13135 | Ondernemingsvrijheid | 17 reacties

ahmedgad / Pixabay

Een lezer vroeg me:

Wij willen in onze organisatie gaan experimenteren met AI oftewel machine learning voor tekstanalyse. Onze bronbestanden bevatten persoonsgegevens (denk aan ingevulde aanvraagformulieren en onze beoordeling daarvan). Mogen we die meenemen in het bouwen van ons systeem?
Het gebruik van persoonsgegevens is natuurlijk gereguleerd onder de AVG. In principe is het niet de bedoeling dat je persoonsgegevens voor andere doeleinden gebruikt, zie mijn blog over testen met persoonsgegevens* als voorbeeld.

Er is echter een specifieke route bij het gebruik van data voor trainen van AI. AI oftewel machine learning is immers “alleen maar” statistiek, je zoekt naar patronen met wiskundige algoritmes, bijvoorbeeld lijnen die een heleboel metingen in twee groepen (ja/nee, gevaarlijk/normaal, etc) verdeelt of een formule waarmee je een nieuwe meting kunt plaatsen. In AVG terminologie noemen we dit een verwerking voor statistische doeleinden.

Vanwege artikel 5 lid 1 sub a AVG is dat dan in principe verenigbaar met het oorspronkelijke doel, wat dat doel ook was. Je mag statistisch onderzoek doen op je rechtmatig verkregen persoonsgegevens, daar is geen aparte toestemming voor nodig. De voornaamste eis is dat wat daaruit komt, niet rechtstreeks terug wordt toegepast op de betrokken personen, en al helemaal niet als een geautomatiseerde besluitvorming (artikel 22 AVG).

Dat is bij een AI model totaal niet aan de orde. Sterker nog, persoonsgegevens zijn gewoonlijk niet meer dan ruis – die paar keer dat er “Jansen” in een veld staat, heeft geen enkel effect. De vele duizenden bedragen waartussen geïnterpoleerd kan worden, of de velden met geslacht, werkzame status et cetera zijn veel belangrijker. Het statistisch model (“de AI”) dat eruit komt, zal dus niet of nauwelijks beïnvloed zijn door die namen of adressen in het bronbestand.

Het risico dat ik wel zie, is dat je een bron-dataset hebt waarin al die Jansens met naam en toenaam staan. Dat bestand zal dus goed moeten worden bewaakt, want daarin zitten dus leesbare persoonsgegevens en die zouden kunnen lekken of voor niet-statistische doelen worden ingezet. Tegelijk zul je dit bestand wel steeds nodig hebben bij iedere update, dus dit direct weggooien is ook weer geen optie.

Arnoud * sed s/Wbp/AVG/g

VN-commissaris roept op tot stopzetting van biometrische herkenning via AI

| AE 12915 | Innovatie | 30 reacties

De commissaris voor mensenrechten bij de VN pleit voor een stopzetting op het gebruik van biometrische herkenning in de publieke ruimte, las ik bij Tweakers. Mevrouw Bachelet doet deze uitspraak in een rapport van de Verenigde Naties waarin de effecten van artificiële intelligentie op mensenrechten wordt besproken. Overheden zouden eerst moeten kunnen aantonen of er voldaan wordt aan de privacywetgeving en of er niet gediscrimineerd kan worden. En dat geeft weer gelijk discussie over de vraag of een AI wel kan discrimineren.

Het rapport stipt nog meer dingen aan, zoals dat AI vaak door private partijen wordt geleverd en dan totaal niet transparant is. Of dat je niet weet waar de data vandaan komt of wat men er nog meer mee doet. Ik vind dat soort dingen minstens zo ingewikkeld en juridisch vervelend.

Maar goed, discriminatie. Gewoon een neutraal woord in de wetenschap hoor, zo lees ik dan in de comments. En terecht: het betekent gewoon “onderscheid maken” en in de statistiek gebruik je dat voor iedere situatie waarin je data in groep A of B gaat onderverdelen. Maar juristen en ethici bedoelen er wat anders mee, namelijk het onderscheid maken op basis van verboden kenmerken zoals etnische afkomst, seksuele gerichtheid of politieke voorkeur. Dat willen we niet, en daar is een hele goede reden voor: deze kenmerken zijn fundamentele waarden van mensen, en ook niet te wijzigen zoals een kledingkeuze of zelfs woonplaats. Daar blijf je dus af.

Bovendien is er nooit enig oorzakelijk verband aangetoond tussen die kenmerken en welk gedrag dan ook. Iedere uitspraak van het soort “mensen met etnisch kenmerk X willen/hebben/kunnen/haten” is dus automatisch fout, dat is gewoon geen kenmerk waar je uitspraken op kunt baseren. Oké, heel misschien medische kenmerken (kroeshaar is lastiger te scheren, Aziaten verdragen koemelk niet) maar dat zijn echt de uitzonderingen. Het soort situatie waar we het bij AI vaak over hebben, past daar niet bij.

Dat wringt, omdat we vaak AI systemen correlaties zien aanwijzen: de criminaliteit is hoger bij groepen met etnisch kenmerk X, sollicitanten met huidskleur A zijn minder geschikt, seksuele gerichtheid X gaat niet samen met lesgeven op school. Voor een AI is dat inderdaad een neutrale constatering, als dat zo in de dataset zit en de functie komt daarbij op een goed werkend onderscheid (de test-dataset wordt correct als ja of nee gesorteerd) dan is het in orde.

Zo’n conclusie is voor de maatschappij echter niet in orde. In eerste instantie niet omdat de dataset waarschijnlijk niet compleet is (dit is namelijk bij vrijwel iedere AI applicatie een ware uitspraak). Maar zelfs als je wél alle relevante data hebt, blijft er een probleem.

Natuurlijk kan een AI ook een bestaande bias blootleggen. Huidskleur blijkt bij dit bedrijf een perfecte voorspeller van geschiktheid, omdat de HR-medewerker die de sollicitanten screende, zelf die bias had. Dan heb je dus een bias geformaliseerd, maar dat kun je het systeem niet verwijten toch? Die geeft neutraal aan hoe de werkelijkheid is, hoe de maatschappij er nu uit ziet.

Maar dat is niet waar. Een mens is allereerst niet zo hard als een AI. Die zal niet snel iemand in zijn of haar gezicht zeggen, je huidskleur past niet bij dit bedrijf. Die verzint excuses, blaast een smetje op het cv op of legt het gewoon op de stapel “tweede keus” wetende dat er al tien mensen op gesprek komen. Dat merk je niet. Een AI zegt gewoon letterlijk waar het op staat, zonder schroom of vergoeilijking of excuses. En dat valt veel meer op, komt veel meer binnen.

Bovendien, en dat vind ik problematischer, heeft een AI veel meer een aura van objectiviteit, betrouwbaarheid, echtheid. De cijfers zeggen het, deze huidskleur kan gewoon niet bij dit bedrijf. Helaas, objectief berekend met 88% betrouwbaarheid en achttien cijfers achter de komma. Maar in feite hebben we hetzelfde als die HR-medewerker die het met mooie smoesjes wist te verhullen.

Arnoud

Mag je een AI telefonende politici laten signaleren en daarover tweeten?

| AE 12772 | Privacy | 4 reacties

De Vlaamse kunstenaar Dries Depoorter heeft software gemaakt die via machinelearning en gezichtsherkenning ziet wanneer een politicus op zijn of haar smartphone zit tijdens een overheidsvergadering. Dat meldde Tweakers afgelopen maandag. En de grap: de software maakt daarna een Twitter- en Instagram-bericht aan. Onder de naam The Flemish Scrollers kunnen geïnteresseerden dan constateren dat de betreffende politicus dan afgeleid is, waar je dan zelf wat van mag vinden.

Het beeld dat ontstaat is natuurlijk dat politici zich aan hun werk onttrekken of niet geïnteresseerd zijn in wat collega’s te melden hebben. Dat zal zeker wel eens het geval zijn (je zou het misschien zelfs nog aan de politicus zhaar Twitter of Instagram-activiteit kunnen koppelen, bedenk ik me) maar men zal zeker ook wel op die manier ruggespraak houden met partijgenoten. Dat is iets praktischer en juist vriendelijker dan opstaan en buiten de zaal samen praten, en dan weer naar binnen gaan.

Onduidelijk is nog wat de politici er van vinden, ik zag in de comments al dat het ironisch genoemd werd omdat politici de burger juist met alles en nog wat in de gaten houden. Maar dat zou het alleen maar zijn als de dames en heren politici hier bezwaar tegen hebben, wat voorals nog niet het geval lijkt.

Ook wat betreft de AVG zie ik geen probleem. Dit is evident een artistieke verwerking, die een duidelijk maatschappelijk punt maakt en zich baseert op openbare beelden. Daarmee is de belangenafweging van artikel 6 sub f AVG snel gemaakt, het gerechtvaardigd belang van Depoorter om dit te tonen weegt zwaarder dan privacy- of andere belangen van de politici in kwestie. (Voor mij weegt dan zeker mee dat Depoorter zich niet uitlaat over wat men doet op de telefoon: men kan immers ruggespraak houden, dossiers nazoeken of anderszins legitiem de smartphone gebruiken.)

Hoe moeilijk zou het zijn dit te porten naar de Nederlandse Tweede Kamer?

Arnoud

GitHub brengt AI-programmer uit die helpt bij het schrijven van code, mag dat van de GPL?

| AE 12764 | Intellectuele rechten, Ondernemingsvrijheid | 10 reacties

GitHub heeft een technische preview uitgebracht van Copilot, een AI-gedreven pair programmer die ontwikkelaars helpt bij het schrijven van code. Dat las ik bij Tweakers. Copilot stelt contextgebonden code en functies voor, en helpt acties bij het oplossen van problemen door te leren van de code die iemand schrijft. De AI is getraind op een… Lees verder

Nederlandse politie geeft details over gebruik van Boston Dynamics-robot Spot

| AE 12586 | Informatiemaatschappij | 3 reacties

De Dienst Speciale Operaties van de Nederlandse politie heeft een Spot-robot van Boston Dynamics in gebruik genomen en die onlangs voor het eerst ingezet. Dat meldde Tweakers onlangs. Spot is een robothond met als unieke eigenschap zijn natuurlijke manier van bewegen en evenwicht bewaren, waarbij je dan moet zeggen dat het “AI aangedreven is”. De variant die… Lees verder

Moet ik nog zeggen dat die ondergoedfotoapp van Albert Heijn van de AVG niet mag?

| AE 11634 | Ondernemingsvrijheid, Privacy | 28 reacties

Winkelpersoneel van Albert Heijn is binnenkort in nieuwe bedrijfskleding te zien. De maat zou worden bepaald door foto’s in ondergoed. Dat las ik bij NRC (dank, vele tipgevers, ook voor dit gedicht). De foto’s worden – als ik het goed begrijp – door een AI geanalyseerd om zo de best passende maat te weten te… Lees verder

Mag een AI-politiecamera je beboeten voor een plak roggebrood in de hand bij het rijden?

| AE 11528 | Regulering | 16 reacties

Een lezer vroeg me: Onlangs werd bekend dat de politie ‘slimme camera’s’ gaat inzetten tegen automobilisten die met hun smartphone in de hand aan het appen of bellen zijn. Maar hoe kunnen ze met zo’n camera zien of ik een telefoon vasthoud of bijvoorbeeld een navigatie-unit of zelfs een plak roggebrood? Die is ook zwart… Lees verder

Politiek wil waakhond op algoritmes, maar ik heb liever een keurmerk voor de trainingsdata

| AE 11336 | Innovatie | 14 reacties

De Nederlandse politieke partijen D66 en CDA roepen het kabinet dinsdag in een motie op toezichthouder op te zetten die het gebruik van algoritmes bij de overheid in de gaten houdt. Dat las ik bij Tweakers maandag. De macht van algoritmes is een steeds grotere angst aan het worden: ze zijn niet transparant, ze kunnen… Lees verder

In Estland denken ze dat AI een eerlijke rechter kan zijn

| AE 11279 | Innovatie | 9 reacties

De Baltische staat Estland timmert al geruime tijd fors aan de weg met wat wij e-government zouden noemen: innovatief en digitaal diensten aan de burger aanbieden, van een elektronische identiteitskaart tot een compleet online loket. Veilig, snel en goedkoop. En AI oftewel machine learning speelt daarbij een steeds grotere rol. Mede gedreven vanuit de behoefte… Lees verder

Facebook overtreedt mogelijk AVG door medewerkers posts te laten labelen

| AE 11265 | Ondernemingsvrijheid | 13 reacties

Facebook overtreedt mogelijk de Europese privacyverordening AVG door medewerkers van daarvoor aangestelde bedrijven te laten kijken naar posts om ze te labelen. Dat las ik bij Tweakers maandag. Een team van 260 mensen uit India leest al jaren alle berichten (inclusief foto’s) om die van labels te voorzien, zo ontdekte Reuters namelijk. Die labels classificeren… Lees verder