Bunq mag AI inzetten voor controleren van klanten op witwassen

RyanMcGuire / Pixabay

Internetbank Bunq mag AI inzetten om witwaspraktijken en het financieren van terrorisme te voorkomen, las ik bij Tweakers. De Nederlandsche Bank had de bank opgedragen om een traditionele, checklist-gebaseerde controle van haar klanten uit te voeren, maar de hoogste financiële bestuursrechter (het CBb) zegt nu dat dit te kort door de bocht was. DNB heeft niet bewezen dat bunq met haar methode van het vaststellen van het doel en de beoogde aard van de zakelijke relatie en de monitoring daarvan niet voldoet aan de open normen van de Wwft, aldus het CBb. De term “inzet van AI” is voor mij dan weer wat voorbarig.

De Wet ter voorkoming van witwassen en financieren van terrorisme (Wwft) bevat een controversiële eis, namelijk dat banken in de strijd tegen witwassen en financiering van terrorisme hun (nieuwe en bestaande) klanten moeten indelen in risicoprofielen, en op die basis ze meer of minder indringend monitoren. Zoals het FD schrijft: DNB vraagt om een analysemethodiek die een vaste set regels volgt en heel precies voorschrijft hoe banken dat moeten doen.

Bunq deed het anders: zij verdeelde haar klanten in twee groepen, de ‘gewone’ klanten en de ‘ongewone’ klanten noem ik ze maar even. De bank had namelijk een profiel van “regular users” gedefinieerd, en je kon daar binnen of buiten vallen:

  • Age: 18-60 year
  • Country of residence: NL, BE, DE, AT, IT, ES, FR
  • Purpose: Standard Payment Account
  • Monthly outgoing transaction volume: EUR 10.000
  • Maximum balance: EUR 10.000
  • Number of payments per month: Up to 150
Onderzoek van Bunq toonde aan dat de “overgrote meerderheid van de particuliere klanten” in dit profiel past en een klein risico met zich meebrengt. Standaard komen nieuwe klanten in dit profiel, en door monitoring van klantgedrag wordt gekeken of de klant er binnen blijft.
Op het moment dat dit niet (langer) het geval is, stelt bunq – afhankelijk van het risicoprofiel van de betreffende klant en de afwijkingen van de klant ten opzichte van het regular user profiel – automatisch een aantal vragen aan de klant. Als een klant deze vragen niet binnen de gestelde periode beantwoordt, wordt de klant toegang tot de rekening (tijdelijk) ontzegd.
Op basis van de antwoorden wordt het profiel van de klant bijgesteld, wat dus meestal zal leiden tot intensievere monitoring. Dat is binnen doel en strekking van de wet, want die schrijft geen specifieke techniek voor. Maar de DNB had er wel grote moeite mee, want Bunq onderzoekt nieuwe klanten niet in detail maar noemt iedereen “regular” totdat er risicosignalen komen. Zoals het CBb het samenvat:
In het bestreden besluit heeft DNB uiteengezet dat uit het gegeven dat bunq een standaardprofiel aan nieuwe particuliere klanten toekent kan worden opgemaakt dat dit profiel niet is gebaseerd op specifiek bij de klant ingewonnen informatie. Een standaardprofiel stelt een instelling verder niet in staat om te bepalen wat nu het doel en de beoogde aard van de zakelijke relatie is, maar leidt enkel tot een aanname van bunq daarover. Dat bunq heeft vastgesteld dat haar particuliere klanten een homogene groep vormen, maakt dat niet anders.
Het CBb concludeert echter dat Bunq wél adequaat handelt. De wet bevat een open norm, en DNB heeft niet inhoudelijk aangetoond waarom Bunq’s methode leidt tot foute of tekortkomende classificaties of monitoring. De standaardrekening is beperkt in wat je ermee kunt doen, de kans op risico op witwassen of financiering is derhalve klein. En bovendien corrigeert Bunq dus snel het beeld zodra de klant de grenzen opzoekt. Dat laatste is precies wat traditionele banken ook doen, want weliswaar moet je daar gedetailleerde formulieren invullen, daar kúnnen mensen immers liegen dus je moet toch continu monitoren wat er gebeurt dat afwijkt van het verwachte.

Het is dat continue monitoring waar die AI – machine learning – een rol speelt, als ik het zo lees. Ik zie wel hoe je met ML makkelijker patronen en uitschieters kunt detecteren, zodat je sneller en met minder handwerk kunt zien waar mensen rare dingen aan het doen zijn. Dit “behoeft geen bespreking meer”, aldus het CBb, want het bezwaar van DNB is kort gezegd dat als je aan de poort te makkelijk bent, je dús tekort schiet bij je continue controle:

Op de zitting van het College heeft DNB ook uiteengezet dat het ontoereikende cliëntenonderzoek aan de poort doorwerkt in de transactiemonitoring. Uit wat hierover onder 8.5.5 en 8.6.4 is overwogen, volgt dat dit uitgangspunt onjuist is. Daarom moet worden geoordeeld dat DNB niet het bewijs heeft geleverd dat bunq geen adequate voortdurende controle op haar zakelijke relatie met haar klanten uitoefent.
Wel was Bunq terecht op de vingers getikt voor het niet opvolgen van vier concrete dossiers met signalen, en het niet goed onboarden van politiek prominente personen (politically exposed persons of PEP). PEPs zijn extra kwetsbare categorieën burgers, zoals directeuren, landelijke politici of rechters. Signalen bij een PEP moeten dus gevoeliger en sneller worden opgepakt.

Bunq is erg blij natuurlijk, een ‘overwinning voor de vooruitgang’ noemt men het in het FD. En ja, het is zeker een goede zaak dat bevestigd is dat de Wwft open normen kent en dat de inzet van ML niet perse ontoereikend genoemd moet worden. Maar de strijd is nog niet gestreden: DNB kan nieuw beleid maken en een nieuw besluit nemen op de onderzoeksmethode van Bunq.

Arnoud

 

 

Mag je persoonsgegevens gebruiken om een AI mee te trainen?

ahmedgad / Pixabay

Een lezer vroeg me:

Wij willen in onze organisatie gaan experimenteren met AI oftewel machine learning voor tekstanalyse. Onze bronbestanden bevatten persoonsgegevens (denk aan ingevulde aanvraagformulieren en onze beoordeling daarvan). Mogen we die meenemen in het bouwen van ons systeem?
Het gebruik van persoonsgegevens is natuurlijk gereguleerd onder de AVG. In principe is het niet de bedoeling dat je persoonsgegevens voor andere doeleinden gebruikt, zie mijn blog over testen met persoonsgegevens* als voorbeeld.

Er is echter een specifieke route bij het gebruik van data voor trainen van AI. AI oftewel machine learning is immers “alleen maar” statistiek, je zoekt naar patronen met wiskundige algoritmes, bijvoorbeeld lijnen die een heleboel metingen in twee groepen (ja/nee, gevaarlijk/normaal, etc) verdeelt of een formule waarmee je een nieuwe meting kunt plaatsen. In AVG terminologie noemen we dit een verwerking voor statistische doeleinden.

Vanwege artikel 5 lid 1 sub a AVG is dat dan in principe verenigbaar met het oorspronkelijke doel, wat dat doel ook was. Je mag statistisch onderzoek doen op je rechtmatig verkregen persoonsgegevens, daar is geen aparte toestemming voor nodig. De voornaamste eis is dat wat daaruit komt, niet rechtstreeks terug wordt toegepast op de betrokken personen, en al helemaal niet als een geautomatiseerde besluitvorming (artikel 22 AVG).

Dat is bij een AI model totaal niet aan de orde. Sterker nog, persoonsgegevens zijn gewoonlijk niet meer dan ruis – die paar keer dat er “Jansen” in een veld staat, heeft geen enkel effect. De vele duizenden bedragen waartussen geïnterpoleerd kan worden, of de velden met geslacht, werkzame status et cetera zijn veel belangrijker. Het statistisch model (“de AI”) dat eruit komt, zal dus niet of nauwelijks beïnvloed zijn door die namen of adressen in het bronbestand.

Het risico dat ik wel zie, is dat je een bron-dataset hebt waarin al die Jansens met naam en toenaam staan. Dat bestand zal dus goed moeten worden bewaakt, want daarin zitten dus leesbare persoonsgegevens en die zouden kunnen lekken of voor niet-statistische doelen worden ingezet. Tegelijk zul je dit bestand wel steeds nodig hebben bij iedere update, dus dit direct weggooien is ook weer geen optie.

Arnoud * sed s/Wbp/AVG/g

GitHub brengt AI-programmer uit die helpt bij het schrijven van code, mag dat van de GPL?

GitHub heeft een technische preview uitgebracht van Copilot, een AI-gedreven pair programmer die ontwikkelaars helpt bij het schrijven van code. Dat las ik bij Tweakers. Copilot stelt contextgebonden code en functies voor, en helpt acties bij het oplossen van problemen door te leren van de code die iemand schrijft. De AI is getraind op een grote dataset van publieke broncode, en dat zal vast grotendeels open source zijn onder de GPL want dat is nu eenmaal de bulk van de “publieke” software. Maar de GPL vindt daar iets van, van hergebruik.

Copilot kan automatisch opmerkingen omzetten in code, repetitieve code aanvullen en een functie testen tijdens het schrijven. Het systeem leert en verbetert zichzelf. Het klinkt als een hele goede ontwikkeling, maar als je even doordenkt dan besef je dat dit alleen kan door een héle berg broncode door te akkeren en tot een machine learning model om te zetten. Dat zegt men zelf ook:

Trained on billions of lines of public code, GitHub Copilot puts the knowledge you need at your fingertips, saving you time and helping you stay focused.

Er is die merkwaardige gedachte dat als iets “publiek” is, dat je er dan wat mee mag. Misschien moeten we naast “data is niets” nog een juridisch mantra invoeren: “dat het publiek is, is geen argument”. Want het gaat hier om software, en die is zonder twijfel auteursrechtelijk beschermd. En wanneer die “publiek” online staat, dan weet ik vrij zeker dat het om open source gaat. En dan krijg je dus te maken met de licentie. Of niet?

Interessant genoeg zegt men in de FAQ dan:

GitHub Copilot is a code synthesizer, not a search engine: the vast majority of the code that it suggests is uniquely generated and has never been seen before. We found that about 0.1% of the time, the suggestion may contain some snippets that are verbatim from the training set. Here is an in-depth study on the model’s behavior.
Er is natuurlijk een ontzettend groot verschil tussen een lap code copypasten en heel goed kijken naar “billions of lines of code” om jezelf te trainen. Wie zei dat ook weer, kopiëren uit één bron is diefstal en kopiëren uit honderd is inspiratie? Dat lijkt me hier ook van toepassing.

Het komt neer op de algemene vraag of het maken van een machine learning model een kopie is van alle brondocumenten of -data. Als dat zo is, dan krijg je met de licentie te maken en daar zou dan in dit geval de GPL op van toepassing kunnen zijn. Dan zou alle code die Copilot suggereert, onder de GPL vallen, want dan is al die code afgeleid van de GPL code die erin ging. En dan is dus ook elk door Copilot mede geschreven project GPL.

Bewijstechnisch valt daar nog wel wat op aan te merken: de GPL auteur zal moeten bewijzen dat deze suggestie gedaan is op basis van haar code, want zonder kopie geen inbreuk. En dat zal niet meevallen. Maar dat terzijde.

Is een machine learning model inbreuk op de rechten van de brondocumenten? In de VS waarschijnlijk niet. In 2019 oordeelde de Second Ciruit (de hogerberoepsrechter voor New York, Connecticut en Vermont) dat het verwerken van stukjes uit boeken om een boekenzoekalgoritme te trainen géén inbreuk op auteursrechten is. De dataset die daarmee ontstaat, is dus niet onderworpen aan toestemming (of licentie) van de boekenrechthebbenden.

In Europa zijn er geen vergelijkbare zaken. We hebben wel de Infopaq-zaak, waarin werd bepaald dat het overnemen en verspreiden van 11 woorden (een snippet in zoekresultaten) onderworpen kan zijn aan auteursrechten, maar het ging daar om het publiceren van zoekresultaten in een nieuwsbrief. Dat is toch echt wat anders dan een statistisch model maken waarin staat dat codestukje X vaak samengaat met Y, of dat constructie A goed aansluit bij aanhef B. Ik volg dan ook de conclusie van professors Gotzen en Janssens:

Vooral de overwegingen in de arresten Infopaq I, in verband met bepaalde handelingen van ‘data capturing’ die onder het toepassingsgebied van de uitzondering kunnen vallen, verdienen aandacht. Maar de vijf voorwaarden die de uitzondering … oplegt, zijn cumulatief en, mede in het licht van de regel van de strikte interpretatie, zijn we niet geneigd om te concluderen dat alle gebruikshandelingen voor het trainen van AI-systemen die gebruik maken van beschermd materiaal, door deze uitzondering zullen worden afgedekt.
Die vijf voorwaarden zijn als volgt:
  1. deze handeling is tijdelijk;
  2. deze handeling is van voorbijgaande of incidentele aard;
  3. deze handeling vormt een integraal en essentieel onderdeel van een technisch procedé;
  4. dit procedé wordt toegepast met als enig doel de doorgifte in een netwerk tussen derden door een tussenpersoon of een rechtmatig gebruik van een werk of beschermd materiaal mogelijk te maken, en
  5. deze handeling bezit geen zelfstandige economische waarde.
Een machine learning dataset maken is een tijdelijke handeling, die essentieel en integraal nodig is om het neuraal netwerk mee te maken. Dat trainen is niet op zichzelf economisch waardevol (de exploitatie van het resultaat natuurlijk wel, maar dat bedoelt men hier niet). Punt 4 zou je dan naar analogie moeten interpreteren, wat het Hof van Justitie doet in punt 64 van het arrest:
wanneer de levensduur ervan is beperkt tot hetgeen noodzakelijk is voor de goede werking van het betrokken technische procedé, waarbij dit procedé geautomatiseerd moet zijn zodat deze handeling automatisch, zonder menselijke interventie, wordt gewist zodra de functie ervan om dit procedé mogelijk te maken is vervuld.
Oftewel in gewone taal “ik extraheer even de essentiële kenmerken om een statistisch model te maken, daarna gooi ik het weer weg” en dat zou dan mogen.

Arnoud

De AI Hall of Shame laat zien waarom AI compliance officers nodig zijn

Heb je je wel eens afgevraagd hoe deze innovatie bijdraagt aan een afschuwelijke dystopie? Zo prikkelt machine learning engineer Sean McGregor zijn collega’s als die weer eens enthousiast doen over de inzet van AI voor het een of ander. Want maar al te vaak blijkt een goed idee uiteindelijk vooral nadelen voor kwetsbare mensen op te leveren of nodeloze rechtlijnigheid te introduceren in een op zich prima werkend menselijk proces. En om dat kracht bij te zetten, onderhoudt hij sinds een tijdje de AI Incident Database.

Zoals de site het zelf toelicht:

The AI Incident Database is a collection of harms or near harms realized in the real world by the deployment of intelligent systems. You are invited to submit reports to the database, whereupon accepted incidents will be indexed and made discoverable to people developing and deploying the next generation of AI technology to the world. Artificial intelligence will only be a benefit to people and society if we collectively record and learn from its failings. Learn more about the database, or read about it on the PAI BlogVice NewsVenture Beat, and arXiv among other outlets.
Soms gaat het om gewoon hilarische storingen, zoals een surveillancerobot die zichzelf de fontein in rijdt omdat hij water niet van tegels kon onderscheiden. Wat ook weer heel naar kan uitpakken, zoals bij de lasrobot die niet geprogrammeerd was om mensen te vermijden – en iemand doodde toen die een losgelaten metalen plaat wilde verwijderen.

De pijn zit hem vaker niet in zulke extreme dingen, maar in de vaak schimmige manier waarop een AI tot haar conclusie komt. Bijvoorbeeld omdat je geen uitleg krijgt, zoals bij incident 96 waar een door de fabrikant geheimgehouden algoritme leraren beoordeelt en laat ontslaan. Of bij incident 78, waar een studente geweigerd werd bij geneeskunde in Duitsland omdat de AI had ingeschat dat ze lage cijfers zou halen. Of bij incident 95 waarin gezichts- en stemanalyse ertoe leidt dat sollicitanten geweigerd worden.

Die laatste is interessant omdat de gebruikte data is geanalyseerd en vrij van bias zou zijn bevonden. Ja, ik ben skeptisch want ik geloof dat niet – bijvoorbeeld omdat ik me niet kan voorstellen dat men bij stemanalyses de moeite neemt om stotteraars of mensen met slokdarmspraak te vragen om een representatieve hoeveelheid data aan te leveren.  (De kans is groter dat men het ding op porno getraind heeft, daar is immers veel sneller een grote hoeveelheid data voor te krijgen.)

Dat gebrek aan representativiteit zie je vaak opduiken. Bijvoorbeeld in incident 48, waarbij paspoortfoto’s worden gescreend op “ogen volledig open” wat natuurlijk misgaat bij Aziatische mensen. Die overigens ook niet hoog scoren in beauty contests waarbij een AI de jury speelt. Op het gorilla-incident van Google hoef ik al helemaal niet op in te gaan. Het aantal voorbeelden is talrijk.

De vraag is, hoe moet het dan wel. Daar zijn alweer eventjes geleden de EU Ethics Guidelines for trustworthy AI voor geformuleerd. Deze bevatten geen juridische eisen (die komen er wel aan, de Verordening AI) maar juist ethische kaders: hoe moet het wel, wat mag de burger verwachten en wat moet een bouwer of gebruiker van AI aan verplichtingen op zich nemen.

Wie wil leren hoe dat werkt: op 20 september start mijn tienweekse cursus AI Compliance in de praktijk weer. Leer in je eigen tijd (ongeveer 4 uur per week) de techniek én de ethische kaders rondom AI, met echte cases en echte data. Ik laat je zoeken naar bias in een dataset met leningaanvragen of puzzelen over waarom een snel en vrijwillig AI-loket bij de gemeente in strijd is met de mensenrechten. En ondertussen zet je je ook in om de gemeente Juinen met haar miljoenen kostende AI initiatieven hoog in de wereldranglijst te krijgen. Wees er snel bij!

Arnoud

 

Nog even terugkomend op dat ‘Afrikaanse’ van machine learning

Onlangs blogde ik over “Afrikaanse” machine learning, wat een leuke discussie opleverde maar ook veel vragen over wanneer je nu een computersysteem “westers” moet noemen. Een computer past geen culturele waarden toe, bijvoorbeeld, die telt 1 en 1 bij elkaar op en dat is gewoon 2. Daar is niets Chinees, Ubuntu of neoliberaals aan. Een reactie van Ronald gaf me aanleiding hier eens verder over na te denken, want het raakt aan een fundamenteel punt rondom de effectiviteit en het nut van AI.

Volgens mij is het “Westerse” versus “Afrikaanse” aspect van een machine learning systeem meer wát je gaat leren en waarvan. Zoals ik Mhlambi begrijp, is het verschil in culturen dat je in de Westerse uitgaat van het individu, en in het Afrikaanse/Ubuntu model uitgaat van de groep. Je verzamelt dan andere data (hoe gedraagt de groep zich, wat wil de groep en hoe reageert de groep) en krijgt daarmee ook een ander model.

Meer algemeen groeit een AI (wat ik zie als een marketingterm voor “machine learning met een menssimulerende interface”) natuurlijk op basis van wat je erin stopt. En dan is dus de keuze van wat je in je dataset stopt de kern. Die keuze is dan cultureel bepaald. En natuurlijk rekent de computer zelf niet cultureel bepaald, het is meer hoe hij is vormgegeven. Een oude ergernis van me: dat computers zo slecht met accenten kunnen omgaan, komt omdat het toetsenbord uit de Amerikaanse cultuur/maatschappij komt waar accenten niet voorkomen. Ik zou dan zeggen dat tekstinvoer Amerikaans-cultureel is bepaald, maar als je liever zegt dat de ontwerpers dat zijn, ook prima.

Goed, een concreter voorbeeld. Stel ik wil de chat in mijn videogame via AI modereren. Die moet ongewenste chatberichten eruit vissen, zodat de kwaliteit van de onderlinge praatjes beter werkt. Ik train dan met spamdatasets want ik weet dat spam heel vervelend is, en gooi er ook racisme in want dat is tegenwoordig ook een ding. Dan krijg je een prachtige moderator – alleen doet die niets tegen seksueel lastigvallen, want ik vond dat geen issue. Heb ik dus geen data van. Vrouwelijke spelers denk ik wel, die zouden wellicht daar eerder op filteren. Of bedenken dat er een dickpic filter op toegezonden beeld moet komen. Dat zijn voor mij echt andere gezichtspunten, niet alleen maar een neutrale selectie van data.

Maar je zou ook kunnen zeggen, de dataset wordt gelabeld langs de lijn “is een teamspeler” versus “speelt individualistisch/doet niet leuk mee” en dan krijg je wéér een heel andere AI. En daarbij zou de aard van het spel en de samenstelling van de deelnemers veel uitmaken. Hebben we jonge Westerse mannen, of juist oudere Australische vrouwen? Gaat het om schieten (dus veel korte en snelle communicatie) of is het een langlopende puzzel hunt met dus veel overleg, discussie, filosofie? Al die dingen wegen mee in hoe je “modereer een chat” invult.

Het gaat dus niet om of de AI iets ‘begrijpt’ maar op welke manier deze functioneert. Welke aannames stop je erin bij het bouwen, welke data neem je mee en welke niet. Vanuit welke filosofie zeg je “dat gegeven is niet relevant” of “ik heb liever dat hij stuurt op A dan op B”. Dát is volgens mij waar het om gaat.

Arnoud

Politiek wil waakhond op algoritmes, maar ik heb liever een keurmerk voor de trainingsdata

De Nederlandse politieke partijen D66 en CDA roepen het kabinet dinsdag in een motie op toezichthouder op te zetten die het gebruik van algoritmes bij de overheid in de gaten houdt. Dat las ik bij Tweakers maandag. De macht van algoritmes is een steeds grotere angst aan het worden: ze zijn niet transparant, ze kunnen al snel discrimineren of oneerlijk behandelen en ambtenaren voelen zich vaak verplicht om te doen wat het algoritme zegt in plaats van hun eigen afwijkende opvatting over de zaak door te zetten. Een loffelijk idee, alleen vergeten ze weer waar het eigenlijk om gaat: it’s the data, stupid.

Aanleiding voor het voorstel is eerdere berichtgeving van de NOS over de macht van algoritmes. Schokkend vond ik vooral dat niet duidelijk was waar en hoe men geautomatiseerde besluitvorming toepast, de NOS had vele wob verzoeken nodig om een en ander een tikje inzichtelijk te krijgen. De richtlijn moet duidelijk maken in welke gevallen gebruik van algoritmes wel of niet gerechtvaardigd is. Of er een volledig nieuwe toezichthouder moet komen of dat bijvoorbeeld de Autoriteit Persoonsgegevens extra bevoegdheden krijgt, moet nog worden besloten.

Een algoritme is een reeks instructies die door een computer wordt uitgevoerd, zo meldt de NOS netjes. Alleen hebben we het hier niet over algoritmes in klassieke zin, zoals in het stroomschema hier rechtsboven. Een klassiek algoritme is als een taartrecept: doe eerst dit, als de temperatuur hoog genoeg is doe dan dat, doe daarna zus tenzij X want dan zo. En computers gaan dat dan rechtlijnig uitvoeren. (Kennen jullie die van de programmeur die totaal uitgeput uit zijn douche werd gehaald? Op de shampoofles stond namelijk: haren natmaken, shampoo aanbrengen, uitspoelen, herhalen.)

Dergelijke algoritmes worden top-down ontworpen. Begin met de hoofdlijnen, zoek de simpele randgevallen en voeg daar uitzonderingen voor toe, draai het een paar keer en voeg extra uitzonderingen of bijzondere regels toe. Dat groeit door de tijd heen, maar in principe is elke stap bewust genomen en iedere uitbreiding weloverwogen. In theorie is daarmee iedere stap uit te leggen.

De algoritmes waar dit voorstel over gaat, zijn echter geen klassieke algoritmes. Ik zou dit haast kunstmatige intelligentie noemen maar het is gewoon machine learning: het zoeken naar trends en verbanden op basis van grote bakken met data. Eigenlijk gewoon statistiek: in deze bak data zijn dit de fraudeurs en dit niet, en dan flink doorrekenen wat die gemeenschappelijk hebben om zo een voorspellende functie te bedenken die voor een nieuwe aanmelding zegt of deze fraudeur is.

Die voorspellende functie, geladen met die data, is dan een algoritme in de zin dat het een reeks instructies is – maar praktisch gezien is het onvergelijkbaar met die klassieke algoritmen. Sterker nog: ik durf wel te zeggen dat die functie an sich totaal niet interessant is. Daar zijn er genoeg van, en hoewel ieder deep neural net vast zijn eigen prachtige theorie en implementatie heeft, is dat niet waar het om gaat. Laad datzelfde net met nieuwe data en je krijgt iets compleet anders.

Het gaat dus om die data en niets anders. Welke data gaat erin, hoe is die samengesteld en hoe wordt geborgd dat dit een eerlijke en objectieve samenstelling is? Want dáár komt al die ellende van. Vaak is data uit beperkte bron geselecteerd, of ergens aangekocht, en in ieder geval is ‘ie niet getest op representativiteit en actualiteit. Daar gaat het dan meteen mis, want met slechte brondata ga je natuurlijk nooit goede voorspellingen doen. Maar het enge is, het lijken bij het testen best goede voorspellingen want je houdt altijd een stukje van je brondata apart om eens mee te testen. En ik geloof onmiddellijk dat je dan goede uitkomsten krijgt. Logisch, het is dezelfde bron en op dezelfde manier gecategoriseerd.

Ik zou er dus hard voor willen pleiten om geen tijd te verspillen aan die algoritmes, maar juist de problemen bij de bron te bestrijden: geen data de overheid in tenzij met keurmerk. De data moet kloppen, eerlijk zijn en volledig. Dáár een toezichthouder voor lijkt me een prima idee.

Arnoud

Facebook overtreedt mogelijk AVG door medewerkers posts te laten labelen

Facebook overtreedt mogelijk de Europese privacyverordening AVG door medewerkers van daarvoor aangestelde bedrijven te laten kijken naar posts om ze te labelen. Dat las ik bij Tweakers maandag. Een team van 260 mensen uit India leest al jaren alle berichten (inclusief foto’s) om die van labels te voorzien, zo ontdekte Reuters namelijk. Die labels classificeren de berichten in vijf “dimensies”, zodat Facebook kan leren van wat mensen posten en hoe daarop in te springen. En er zal ook vast een AI mee getraind worden. De privacyzorg zit hem dan in het feit dat er geen aparte toestemming is gevraagd voor dit labelen. Maar moet dat dan, van de AVG?

De AVG kent inderdaad de eis van toestemming – maar naast toestemming zijn er nog vijf zogeheten grondslagen om met persoonsgegevens te werken. Als je gegevens bijvoorbeeld nodig hebt om een contract af te handelen, dan heb je geen toestemming nodig. Webshops die aanvinkvakjes inbouwen met “ik geef toestemming bovenstaande gegevens te gebruiken om mijn bestelling te behandelen” snappen er dus niets van. Die toestemming is helemaal niet nodig.

De controversieelste grondslag is die van het “eigen gerechtvaardigd belang”. Dan zeg je namelijk, ik heb een belang als bedrijf om dit gewoon te gaan doen, maar ik heb wel rekening gehouden met je privacy door maatregelen A en B te nemen. Controversieel, omdat je hiermee eigenlijk weigert de ander te vragen om toestemming en veel mensen gewoon verwachten dat je toestemming vraagt waar nodig. Maar ook weer gerechtvaardigd omdat je soms nu eenmaal geen toestemming kúnt vragen. Een triviaal voorbeeld is camerabewaking of fraudedetectie in je betaalpatronen.

Facebook vraagt dus geen toestemming om berichten die post (of als privébericht verstuurt) voor te leggen aan haar labelingsteam. Dat zouden ze dus moeten rechtvaardigen onder dat eigen belang. Het belang zie ik: je herkenning van soorten berichten verbeteren is een wenselijk en nuttig doel, zeker gezien de druk op Facebook om terrorismeverheerlijking, nepnieuws, opruiing en dergelijke te kunnen detecteren en weren.

De discussie die je dan krijgt, is in hoeverre Facebook dit kan rechtvaardigen. En dat komt vaak neer op hoe zeer men rekening houdt met de privacy van personen. Mijn juridische onderbuik zegt dat een bericht tonen aan een intern team dat er een label op plakt (pardon, “verrijkt met een AI-ready dimensie”, dank u marketingafdeling) niet heel erg een inbreuk op de persoonlijke levenssfeer is. Het label heeft geen enkel gevolg voor het bericht zelf, dit wordt niet verwijderd of aangepast op basis van de beoordeling. Plat gezegd, hier merk je niets van.

Twijfel heb ik wel bij het stukje van de privéberichten, want ook die worden gelezen. Het voelt principieel niet juist om een direct bericht tussen A en B te lezen en te taggen, ook niet als die tag verder nergens gebruikt wordt. Dat is gewoon privé, afblijven. Maar ik kan niet ontkennen dat ook hier het argument “je merkt er niets van” opgaat.

Arnoud

EU test nepwetenschappelijke leugendetector bij grenscontroles

Wat bizar: in Griekenland, Hongarije en Letland begint een test van de Europese Unie met een leugendetector bij de grenscontrole, las ik bij Tweakers. Het iBorderCtrl-systeem analyseert ‘microgezichtsuitdrukkingen’ van reizigers om te controleren of ze de waarheid vertellen. Niet alleen is deze test gebaseerd op onderzoek waarbij slechts 32 vrijwilligers betrokken waren als proefpersonen, er is ook geen wetenschappelijke onderbouwing dat microexpressies überhaupt iets zeggen over leugenachtigheid. Maar ja, er zit een Artificial Intelligence in en uiteindelijk zegt het systeem alleen maar dat iemand verder moet worden gecontroleerd, dus niets aan de hand toch? Nou, dus wel.

In de kern komt het erop neer dat je als potentiële bezoeker online een aanvraag doet om de EU in te mogen. Je uploadt dan een foto van je paspoort en doet een intake met een virtuele douanebeambte in jouw taal, waarbij je wordt gefilmd met je eigen webcam. Software bij de douane analyseert die beelden (van 640×480 pixels bij 30 frames per seconde) op ‘microexpressies’, zeer kleine veranderingen in het gelaat die worden gekoppeld aan emotionele reacties. Een Machine Learning model (“een AI”) trekt daar statistische gegevens uit en legt deze langs een berg met proefpersoondata om zo te bepalen of je waarschijnlijk een leugenaar bent. Je komt dan in aanmerking voor extra controle.

Bedoeling van het systeem is natuurlijk om de douanebeambten aan de grens te ontlasten. Als een AI kan filteren op de verdachte personen, dan kan de douane daar haar aandacht op richten en de ‘gewone’ bezoekers doorlaten. Dat concept (dat ik eerder besprak) ondersteunt slechts de werkprocessen, en is daarmee juridisch geen probleem.

Het is ook niet verboden onder de AVG (die ook geldt bij grenscontroles, omdat hij geldt voor alle verwerkingen die in Europa gebeuren, en de dienst van het pre-screenen gebeurt in Europa). Weliswaar mag een computer geen besluiten nemen, maar een aanwijzing of iemand gecontroleerd moet worden, telt niet als besluitvorming in de zin van de AVG. Deze actie raakt je niet “in aanzienlijke mate”, zoals de wettelijke formulering is.

Inhoudelijk is dit natuurlijk behoorlijk problematisch. Natuurlijk is het geen robot die je bij de grens tegenhoudt. Er gaat een rood lampje branden bij de menselijke douanecontroleur, maar die moet vervolgens nog wel iets van bewijs te voorschijn krijgen. Alleen, in mijn ervaring is er altijd wel iets als je goed zoekt, in bureaucratische en voor gebruikers onbekende situaties. Zeker wanneer de controleur het onderzoek in gaat met “er is iets aan de hand”. Je krijgt dan een heel andere insteek van het gesprek en de doorzoeking dan bij een “Persoon geselecteerd voor willekeurige controle”. Dat vind ik ernstig.

In het paper van het onderzoek lees ik dat de insteek is dat van 32 participanten datasets op basis van beelddata werden gemaakt (die fameuze micro-expressies); een webcam van 640×480 pixels op 30 fps, elk frame is een data-vector. Koppel de beelden aan een vraag (“Wat zit er in uw koffer” of “Wat is de naam van iemand die uw verhaal kan bevestigen”) en je hebt je dataset. Het lijkt een standaard neural network met 20 verborgen lagen, waarbij inderdaad accuratesse van 76% werd gerapporteerd op de test-set. Nou is dat al niet hoog, maar het is dus gebaseerd op twee-en-dertig mensen. Dat vind ik bizar weinig. Ik ken natuurlijk de training voor douanebeambten niet, maar ik mag hopen dat die meer dan 32 trainingssituaties krijgen voordat ze ‘los’ mogen aan de grens?

Vervolgens vind ik deze Powerpoint (met wat zorgelijke dingen, zoals dat in de lijst van risicofacturen op slide 16 mensen hun Twitter(???) genoemd wordt. En wat ik volledig mis is hoe het systeem uitlegt waarom je in de verhoogdrisicorij terecht gekomen bent, een AVG eis. Ik denk dat ze denken dat dat niet hoeft omdat het systeem rule-based is, maar dat is onterecht.

Daar komt dan bij dat microexpressies helemaal niets zeggen, aldus UvA-professor Bruno Verschuere. Dus zelfs als je wel een representatief model hebt, dan slaat het aan op features die niets zeggen over de werkelijkheid. Effectief heb je daarmee een hele dure (4,5 miljoen Euro) random nummer generator gebouwd, maar met de pretentie dat het iets zegt dat het lampje rood werd. Dat lijkt me bepaald niet de bedoeling.

Arnoud