Bunq mag AI inzetten voor controleren van klanten op witwassen

| AE 13623 | Ondernemingsvrijheid, Regulering | 30 reacties

RyanMcGuire / Pixabay

Internetbank Bunq mag AI inzetten om witwaspraktijken en het financieren van terrorisme te voorkomen, las ik bij Tweakers. De Nederlandsche Bank had de bank opgedragen om een traditionele, checklist-gebaseerde controle van haar klanten uit te voeren, maar de hoogste financiële bestuursrechter (het CBb) zegt nu dat dit te kort door de bocht was. DNB heeft niet bewezen dat bunq met haar methode van het vaststellen van het doel en de beoogde aard van de zakelijke relatie en de monitoring daarvan niet voldoet aan de open normen van de Wwft, aldus het CBb. De term “inzet van AI” is voor mij dan weer wat voorbarig.

De Wet ter voorkoming van witwassen en financieren van terrorisme (Wwft) bevat een controversiële eis, namelijk dat banken in de strijd tegen witwassen en financiering van terrorisme hun (nieuwe en bestaande) klanten moeten indelen in risicoprofielen, en op die basis ze meer of minder indringend monitoren. Zoals het FD schrijft: DNB vraagt om een analysemethodiek die een vaste set regels volgt en heel precies voorschrijft hoe banken dat moeten doen.

Bunq deed het anders: zij verdeelde haar klanten in twee groepen, de ‘gewone’ klanten en de ‘ongewone’ klanten noem ik ze maar even. De bank had namelijk een profiel van “regular users” gedefinieerd, en je kon daar binnen of buiten vallen:

  • Age: 18-60 year
  • Country of residence: NL, BE, DE, AT, IT, ES, FR
  • Purpose: Standard Payment Account
  • Monthly outgoing transaction volume: EUR 10.000
  • Maximum balance: EUR 10.000
  • Number of payments per month: Up to 150
Onderzoek van Bunq toonde aan dat de “overgrote meerderheid van de particuliere klanten” in dit profiel past en een klein risico met zich meebrengt. Standaard komen nieuwe klanten in dit profiel, en door monitoring van klantgedrag wordt gekeken of de klant er binnen blijft.
Op het moment dat dit niet (langer) het geval is, stelt bunq – afhankelijk van het risicoprofiel van de betreffende klant en de afwijkingen van de klant ten opzichte van het regular user profiel – automatisch een aantal vragen aan de klant. Als een klant deze vragen niet binnen de gestelde periode beantwoordt, wordt de klant toegang tot de rekening (tijdelijk) ontzegd.
Op basis van de antwoorden wordt het profiel van de klant bijgesteld, wat dus meestal zal leiden tot intensievere monitoring. Dat is binnen doel en strekking van de wet, want die schrijft geen specifieke techniek voor. Maar de DNB had er wel grote moeite mee, want Bunq onderzoekt nieuwe klanten niet in detail maar noemt iedereen “regular” totdat er risicosignalen komen. Zoals het CBb het samenvat:
In het bestreden besluit heeft DNB uiteengezet dat uit het gegeven dat bunq een standaardprofiel aan nieuwe particuliere klanten toekent kan worden opgemaakt dat dit profiel niet is gebaseerd op specifiek bij de klant ingewonnen informatie. Een standaardprofiel stelt een instelling verder niet in staat om te bepalen wat nu het doel en de beoogde aard van de zakelijke relatie is, maar leidt enkel tot een aanname van bunq daarover. Dat bunq heeft vastgesteld dat haar particuliere klanten een homogene groep vormen, maakt dat niet anders.
Het CBb concludeert echter dat Bunq wél adequaat handelt. De wet bevat een open norm, en DNB heeft niet inhoudelijk aangetoond waarom Bunq’s methode leidt tot foute of tekortkomende classificaties of monitoring. De standaardrekening is beperkt in wat je ermee kunt doen, de kans op risico op witwassen of financiering is derhalve klein. En bovendien corrigeert Bunq dus snel het beeld zodra de klant de grenzen opzoekt. Dat laatste is precies wat traditionele banken ook doen, want weliswaar moet je daar gedetailleerde formulieren invullen, daar kúnnen mensen immers liegen dus je moet toch continu monitoren wat er gebeurt dat afwijkt van het verwachte.

Het is dat continue monitoring waar die AI – machine learning – een rol speelt, als ik het zo lees. Ik zie wel hoe je met ML makkelijker patronen en uitschieters kunt detecteren, zodat je sneller en met minder handwerk kunt zien waar mensen rare dingen aan het doen zijn. Dit “behoeft geen bespreking meer”, aldus het CBb, want het bezwaar van DNB is kort gezegd dat als je aan de poort te makkelijk bent, je dús tekort schiet bij je continue controle:

Op de zitting van het College heeft DNB ook uiteengezet dat het ontoereikende cliëntenonderzoek aan de poort doorwerkt in de transactiemonitoring. Uit wat hierover onder 8.5.5 en 8.6.4 is overwogen, volgt dat dit uitgangspunt onjuist is. Daarom moet worden geoordeeld dat DNB niet het bewijs heeft geleverd dat bunq geen adequate voortdurende controle op haar zakelijke relatie met haar klanten uitoefent.
Wel was Bunq terecht op de vingers getikt voor het niet opvolgen van vier concrete dossiers met signalen, en het niet goed onboarden van politiek prominente personen (politically exposed persons of PEP). PEPs zijn extra kwetsbare categorieën burgers, zoals directeuren, landelijke politici of rechters. Signalen bij een PEP moeten dus gevoeliger en sneller worden opgepakt.

Bunq is erg blij natuurlijk, een ‘overwinning voor de vooruitgang’ noemt men het in het FD. En ja, het is zeker een goede zaak dat bevestigd is dat de Wwft open normen kent en dat de inzet van ML niet perse ontoereikend genoemd moet worden. Maar de strijd is nog niet gestreden: DNB kan nieuw beleid maken en een nieuw besluit nemen op de onderzoeksmethode van Bunq.

Arnoud

 

 

Mag je persoonsgegevens gebruiken om een AI mee te trainen?

| AE 13135 | Ondernemingsvrijheid | 17 reacties

ahmedgad / Pixabay

Een lezer vroeg me:

Wij willen in onze organisatie gaan experimenteren met AI oftewel machine learning voor tekstanalyse. Onze bronbestanden bevatten persoonsgegevens (denk aan ingevulde aanvraagformulieren en onze beoordeling daarvan). Mogen we die meenemen in het bouwen van ons systeem?
Het gebruik van persoonsgegevens is natuurlijk gereguleerd onder de AVG. In principe is het niet de bedoeling dat je persoonsgegevens voor andere doeleinden gebruikt, zie mijn blog over testen met persoonsgegevens* als voorbeeld.

Er is echter een specifieke route bij het gebruik van data voor trainen van AI. AI oftewel machine learning is immers “alleen maar” statistiek, je zoekt naar patronen met wiskundige algoritmes, bijvoorbeeld lijnen die een heleboel metingen in twee groepen (ja/nee, gevaarlijk/normaal, etc) verdeelt of een formule waarmee je een nieuwe meting kunt plaatsen. In AVG terminologie noemen we dit een verwerking voor statistische doeleinden.

Vanwege artikel 5 lid 1 sub a AVG is dat dan in principe verenigbaar met het oorspronkelijke doel, wat dat doel ook was. Je mag statistisch onderzoek doen op je rechtmatig verkregen persoonsgegevens, daar is geen aparte toestemming voor nodig. De voornaamste eis is dat wat daaruit komt, niet rechtstreeks terug wordt toegepast op de betrokken personen, en al helemaal niet als een geautomatiseerde besluitvorming (artikel 22 AVG).

Dat is bij een AI model totaal niet aan de orde. Sterker nog, persoonsgegevens zijn gewoonlijk niet meer dan ruis – die paar keer dat er “Jansen” in een veld staat, heeft geen enkel effect. De vele duizenden bedragen waartussen geïnterpoleerd kan worden, of de velden met geslacht, werkzame status et cetera zijn veel belangrijker. Het statistisch model (“de AI”) dat eruit komt, zal dus niet of nauwelijks beïnvloed zijn door die namen of adressen in het bronbestand.

Het risico dat ik wel zie, is dat je een bron-dataset hebt waarin al die Jansens met naam en toenaam staan. Dat bestand zal dus goed moeten worden bewaakt, want daarin zitten dus leesbare persoonsgegevens en die zouden kunnen lekken of voor niet-statistische doelen worden ingezet. Tegelijk zul je dit bestand wel steeds nodig hebben bij iedere update, dus dit direct weggooien is ook weer geen optie.

Arnoud * sed s/Wbp/AVG/g

GitHub brengt AI-programmer uit die helpt bij het schrijven van code, mag dat van de GPL?

| AE 12764 | Intellectuele rechten, Ondernemingsvrijheid | 10 reacties

GitHub heeft een technische preview uitgebracht van Copilot, een AI-gedreven pair programmer die ontwikkelaars helpt bij het schrijven van code. Dat las ik bij Tweakers. Copilot stelt contextgebonden code en functies voor, en helpt acties bij het oplossen van problemen door te leren van de code die iemand schrijft. De AI is getraind op een grote dataset van publieke broncode, en dat zal vast grotendeels open source zijn onder de GPL want dat is nu eenmaal de bulk van de “publieke” software. Maar de GPL vindt daar iets van, van hergebruik.

Copilot kan automatisch opmerkingen omzetten in code, repetitieve code aanvullen en een functie testen tijdens het schrijven. Het systeem leert en verbetert zichzelf. Het klinkt als een hele goede ontwikkeling, maar als je even doordenkt dan besef je dat dit alleen kan door een héle berg broncode door te akkeren en tot een machine learning model om te zetten. Dat zegt men zelf ook:

Trained on billions of lines of public code, GitHub Copilot puts the knowledge you need at your fingertips, saving you time and helping you stay focused.

Er is die merkwaardige gedachte dat als iets “publiek” is, dat je er dan wat mee mag. Misschien moeten we naast “data is niets” nog een juridisch mantra invoeren: “dat het publiek is, is geen argument”. Want het gaat hier om software, en die is zonder twijfel auteursrechtelijk beschermd. En wanneer die “publiek” online staat, dan weet ik vrij zeker dat het om open source gaat. En dan krijg je dus te maken met de licentie. Of niet?

Interessant genoeg zegt men in de FAQ dan:

GitHub Copilot is a code synthesizer, not a search engine: the vast majority of the code that it suggests is uniquely generated and has never been seen before. We found that about 0.1% of the time, the suggestion may contain some snippets that are verbatim from the training set. Here is an in-depth study on the model’s behavior.
Er is natuurlijk een ontzettend groot verschil tussen een lap code copypasten en heel goed kijken naar “billions of lines of code” om jezelf te trainen. Wie zei dat ook weer, kopiëren uit één bron is diefstal en kopiëren uit honderd is inspiratie? Dat lijkt me hier ook van toepassing.

Het komt neer op de algemene vraag of het maken van een machine learning model een kopie is van alle brondocumenten of -data. Als dat zo is, dan krijg je met de licentie te maken en daar zou dan in dit geval de GPL op van toepassing kunnen zijn. Dan zou alle code die Copilot suggereert, onder de GPL vallen, want dan is al die code afgeleid van de GPL code die erin ging. En dan is dus ook elk door Copilot mede geschreven project GPL.

Bewijstechnisch valt daar nog wel wat op aan te merken: de GPL auteur zal moeten bewijzen dat deze suggestie gedaan is op basis van haar code, want zonder kopie geen inbreuk. En dat zal niet meevallen. Maar dat terzijde.

Is een machine learning model inbreuk op de rechten van de brondocumenten? In de VS waarschijnlijk niet. In 2019 oordeelde de Second Ciruit (de hogerberoepsrechter voor New York, Connecticut en Vermont) dat het verwerken van stukjes uit boeken om een boekenzoekalgoritme te trainen géén inbreuk op auteursrechten is. De dataset die daarmee ontstaat, is dus niet onderworpen aan toestemming (of licentie) van de boekenrechthebbenden.

In Europa zijn er geen vergelijkbare zaken. We hebben wel de Infopaq-zaak, waarin werd bepaald dat het overnemen en verspreiden van 11 woorden (een snippet in zoekresultaten) onderworpen kan zijn aan auteursrechten, maar het ging daar om het publiceren van zoekresultaten in een nieuwsbrief. Dat is toch echt wat anders dan een statistisch model maken waarin staat dat codestukje X vaak samengaat met Y, of dat constructie A goed aansluit bij aanhef B. Ik volg dan ook de conclusie van professors Gotzen en Janssens:

Vooral de overwegingen in de arresten Infopaq I, in verband met bepaalde handelingen van ‘data capturing’ die onder het toepassingsgebied van de uitzondering kunnen vallen, verdienen aandacht. Maar de vijf voorwaarden die de uitzondering … oplegt, zijn cumulatief en, mede in het licht van de regel van de strikte interpretatie, zijn we niet geneigd om te concluderen dat alle gebruikshandelingen voor het trainen van AI-systemen die gebruik maken van beschermd materiaal, door deze uitzondering zullen worden afgedekt.
Die vijf voorwaarden zijn als volgt:
  1. deze handeling is tijdelijk;
  2. deze handeling is van voorbijgaande of incidentele aard;
  3. deze handeling vormt een integraal en essentieel onderdeel van een technisch procedé;
  4. dit procedé wordt toegepast met als enig doel de doorgifte in een netwerk tussen derden door een tussenpersoon of een rechtmatig gebruik van een werk of beschermd materiaal mogelijk te maken, en
  5. deze handeling bezit geen zelfstandige economische waarde.
Een machine learning dataset maken is een tijdelijke handeling, die essentieel en integraal nodig is om het neuraal netwerk mee te maken. Dat trainen is niet op zichzelf economisch waardevol (de exploitatie van het resultaat natuurlijk wel, maar dat bedoelt men hier niet). Punt 4 zou je dan naar analogie moeten interpreteren, wat het Hof van Justitie doet in punt 64 van het arrest:
wanneer de levensduur ervan is beperkt tot hetgeen noodzakelijk is voor de goede werking van het betrokken technische procedé, waarbij dit procedé geautomatiseerd moet zijn zodat deze handeling automatisch, zonder menselijke interventie, wordt gewist zodra de functie ervan om dit procedé mogelijk te maken is vervuld.
Oftewel in gewone taal “ik extraheer even de essentiële kenmerken om een statistisch model te maken, daarna gooi ik het weer weg” en dat zou dan mogen.

Arnoud

De AI Hall of Shame laat zien waarom AI compliance officers nodig zijn

| AE 12742 | Innovatie | 4 reacties

Heb je je wel eens afgevraagd hoe deze innovatie bijdraagt aan een afschuwelijke dystopie? Zo prikkelt machine learning engineer Sean McGregor zijn collega’s als die weer eens enthousiast doen over de inzet van AI voor het een of ander. Want maar al te vaak blijkt een goed idee uiteindelijk vooral nadelen voor kwetsbare mensen op… Lees verder

Nog even terugkomend op dat ‘Afrikaanse’ van machine learning

| AE 11985 | Ondernemingsvrijheid | 23 reacties

Onlangs blogde ik over “Afrikaanse” machine learning, wat een leuke discussie opleverde maar ook veel vragen over wanneer je nu een computersysteem “westers” moet noemen. Een computer past geen culturele waarden toe, bijvoorbeeld, die telt 1 en 1 bij elkaar op en dat is gewoon 2. Daar is niets Chinees, Ubuntu of neoliberaals aan. Een… Lees verder

Politiek wil waakhond op algoritmes, maar ik heb liever een keurmerk voor de trainingsdata

| AE 11336 | Innovatie | 14 reacties

De Nederlandse politieke partijen D66 en CDA roepen het kabinet dinsdag in een motie op toezichthouder op te zetten die het gebruik van algoritmes bij de overheid in de gaten houdt. Dat las ik bij Tweakers maandag. De macht van algoritmes is een steeds grotere angst aan het worden: ze zijn niet transparant, ze kunnen… Lees verder

Facebook overtreedt mogelijk AVG door medewerkers posts te laten labelen

| AE 11265 | Ondernemingsvrijheid | 13 reacties

Facebook overtreedt mogelijk de Europese privacyverordening AVG door medewerkers van daarvoor aangestelde bedrijven te laten kijken naar posts om ze te labelen. Dat las ik bij Tweakers maandag. Een team van 260 mensen uit India leest al jaren alle berichten (inclusief foto’s) om die van labels te voorzien, zo ontdekte Reuters namelijk. Die labels classificeren… Lees verder

EU test nepwetenschappelijke leugendetector bij grenscontroles

| AE 10949 | Regulering | 16 reacties

Wat bizar: in Griekenland, Hongarije en Letland begint een test van de Europese Unie met een leugendetector bij de grenscontrole, las ik bij Tweakers. Het iBorderCtrl-systeem analyseert ‘microgezichtsuitdrukkingen’ van reizigers om te controleren of ze de waarheid vertellen. Niet alleen is deze test gebaseerd op onderzoek waarbij slechts 32 vrijwilligers betrokken waren als proefpersonen, er… Lees verder