Amersfoort verbiedt gebruik van niet-herleidbare algoritmes

De gemeenteraad Amersfoort maakt zich zorgen over algoritmes, las ik in het stadsblad. De gemeenteraad constateerde namelijk recent dat het voor de burger onmogelijk is om in te zien -ergo, te controleren- tot welke acties de uitkomst van algoritmen leiden. Daarom heeft men besloten voorlopig geen algoritmen te gebruiken waarvan men de uitkomst niet kan herleiden. Wat een mooie stap is, maar wel eentje die vele vragen oproept want om welke algoritmes gáát het dan in Amersfoort?

Zo te zien heeft de gemeente geen registratie in het Algoritmeregister, maar dat is wel een van de voornemens uit een andere motie die recent werd aangenomen. Hier zien we ook iets meer duidelijkheid over de Amersfoortse zorgen:

  1. Het gebruik van nationaliteit en etniciteit als datavariabele in alle risicomodellen, -profielen, – systemen, -selectie en zwarte lijsten binnen de gemeente gebruikt worden uit te sluiten tenzij deze via het ethische afwegingskader een positief advies krijgen;
  2. Tevens te verzekeren dat ook zelflerende algoritmes in risicoclassificatiemodellen deze indicatoren niet gebruiken;
  3. Een publiek toegankelijk algoritmeregister naar het model van Helsinki of Amsterdam in te richten op de website van de gemeente Amersfoort;
  4. In dat register de datasets te openbaren van algoritmes die de gemeente Amersfoort gebruikt.
Bij een onderzoek in 2019 vond de NOS grootschalig gebruik van voorspellende algoritmes, met een hoog risico op discriminatie als gevolg. Dat zat hem dus in het niet goed begrijpen of verklaren van het gedrag van die dingen. Amersfoort kwam in dat onderzoek ook voor:
In andere gevallen bleek het voor overheden zelf ook lastig om te achterhalen wat er eigenlijk gebeurt. Zo voorspelt de gemeente Amersfoort wat de kans is dat een bepaalde leerling een voortijdig schoolverlater wordt. Maar hoe dat precies werkt, en op welke data dit wordt gebaseerd, kon de gemeente Amersfoort niet achterhalen. … Na publicatie van dit verhaal liet de gemeente Amersfoort weten dat geen gegevens zoals etniciteit worden gebruikt. Wel weegt het algoritme mee of een leerling bijvoorbeeld van school is gewisseld of is blijven zitten.
Dit sluit aan bij het landelijke beeld, dat gemeentes voorspellende algoritmes inzetten om fraude en criminaliteit op te sporen, in te schatten wat voor zorg iemand nodig heeft en de opleidingsvoortgang van leerlingen te bewaken. En bij zulke inzet van AI in het sociale domein is het risico op vooringenomenheid levensgroot: datasets kunnen impliciete vooringenomenheid uit het verleden bevatten, of beïnvloed zijn door selectieve samenstelling. Ik ken een gemeente waar wel een goede dataset was van het roomblanke gymnasium maar niet van de zeer diverse scholengemeenschap, raad eens wie er grote risico’s liepen op het intensieve traject voorkomen schoolverlating?

Het lastige is wel meteen dat het niet zo simpel is als de kolom nationaliteit of etniciteit weglaten uit je Excelbestand. Vaak is die factor eerder een stevige correlatie met de echte problemen, zoals taalachterstand sinds de basisschool, stille armoede of onbekendheid met het systeem voor aanvragen van aanvullende bijstand. Een beetje statistiek vist de gevallen met die problemen er nog steeds probleemloos uit, en wie dat dan weer langs de etnische maatstaf legt komt tot de conclusie van discriminatie. Wat dus onjuist is, maar de data zegt het wel.

Dat gezegd hebbende, het is een hele goede stap van Amersfoort en ik denk dat veel gemeentes hier van kunnen leren. Ik zou vooral dat vierde punt zeer toejuichen, zeker als daar ook bij gezet wordt waar de data vandaan komt en waaruit blijkt dat die data iets zegt over het probleem.

Arnoud

Meerdere algoritmen van de overheid voldoen niet aan de basiseisen (excuses, lange blog maar dit is zeg maar mijn ding)

De algoritmes die door de Rijksoverheid worden gebruikt, voldoen lang niet altijd aan de basiseisen. Van de negen getoetste algoritmes voldeden er zes niet aan de eisen, las ik bij Nu.nl. Dit blijkt uit onderzoek van de Algemene Rekenkamer. Deze zes bieden dan ook bijzondere risico’s: gebrekkige controle op prestaties of effecten, vooringenomenheid, datalek of ongeautoriseerde toegang. En omdat het kan gaan om algoritmisch besluiten (zoals verkeersboetes), is dat best schokkend.

Het toegepaste toetsingskader komt uit een eerder onderzoek, Aandacht voor Algoritmes, en bestaat uit 5 perspectieven waarbij het perspectief ethiek als rode draad verbonden is met de andere 4 perspectieven:

  • Sturing en verantwoording: eenduidigheid doel;
  • Model en data: in lijn met doelstellingen;
  • Privacy: ondermeer wettelijke verplichting verwerkingsregister;
  • ITGC: toegankelijke loginformatie;
  • Ethiek: ethische richtlijnen.
Voor wie het wil toepassen: er is een downloadbaar Excel-model om in te vullen. En wie meer wil weten over dat perspectief ethiek, in september begint onze cursus AI Compliance en Governance weer.

Het rapport Algoritmes Getoetst past het kader nu toe op negen overheidsalgoritmes, namelijk:

  1. Rijksdienst voor Identiteitsgegevens: Ondersteuning bij de beoordeling van de kwaliteit van foto’s voor identiteitsbewijzen
  2. Rijksdienst voor Ondernemend Nederland: Risicomodel dat gebruikt wordt bij de beoordeling van aanvragen voor de Tegemoetkoming Vaste Lasten (TVL)
  3. Belastingdienst Toeslagen: Ondersteuning bij de beoordeling van aanvragen voor huurtoeslag in het toeslagenverstrekkingensysteem (TVS)
  4. Centraal Bureau Rijvaardigheidsbewijzen: Ondersteuning bij de beoordeling van de medische rijgeschiktheid van mensen
  5. Politie: het Criminaliteits Anticipatie Systeem (CAS) voorspelt waar en wanneer het risico op incidenten hoog is
  6. Directoraat-generaal  (DG) Migratie: Zoekt intelligent in vreemdelingenpersoonsgegevens of iemand al eerder in Nederland is geregistreerd
  7. Centraal Justitieel Incassobureau (CJIB): Koppelt gegevens voor verkeersboetes aan op kenteken geconstateerde verkeersovertredingen
  8. SZW Inlichtingenbureau: Levert signalen aan gemeenten voor rechtmatigheidscontrole op bijstandsuitkeringen
  9. Sociale Verzekeringsbank (SVB): Ondersteuning bij de beoordeling van AOW-aanvragen.
Allemaal algoritmes, maar niet allemaal van dezelfde soort. Het rapport legt netjes uit dat ook een simpele beslisboom telt als een algoritme, net als data-koppelingen voor uitwisseling (als dit veld door filter X komt dan is het een datum en dan is het volgende veld een achternaam, zulke dingen). Maar er zijn ook algoritmes die ik ervan verdenk machine learning te zijn, zoals dat fotokwaliteitsbeoordelingssysteem van de RvIG of het lerende algoritme van de politie.

Verder hebben de algoritmes verschillende functies: vaak ondersteuning (technisch voorbereiden van data, een preselectie klaarzetten, zoekresultaten sorteren) maar soms ook besluitvorming (agent 40404 bij het CJIB) en soms van die twijfelgevallen zoals bij de ‘signalen’ van de SZW die best sturend kunnen worden opgevat – precision bias, het vooroordeel dat de computer gelijk heeft omdat deze objectief rekent en tien cijfers achter de komma heeft. Of omdat er bij iedereen wel wat te vinden is als je goed zoekt (iedere lezer van deze blog schendt minstens één regel van socialezekerheids- of belastingrecht, gegarandeerd).

Besluitvormend gaat overigens niet perse samen met complex: het toekennen van toeslagen is een simpel algoritme dat toch besluiten neemt (u heeft recht op huurtoeslag, u bent medisch geschikt om te rijden). Dat kan logisch lijken in een standaardsituatie, zoals het rapport uitlegt:

Een aanvraag wordt automatisch goedgekeurd wanneer de aanvraag door het algoritme als laag risico is aangemerkt, bijvoorbeeld omdat het bedrag waarop de aanvrager aanspraak maakt laag is en er geen aanwijzingen voor misbruik of oneigenlijk gebruik zijn. In dat geval komt er geen ambtenaar meer aan te pas.
Bij elektronicawinkel Coolblue is er (volgens mij) zo’n simpel algoritme: een vaste klant (meer dan X aankopen in 6 maanden) die een product van minder dan 10 euro koopt en retourneert, mag het houden en krijgt zijn geld terug. En bij voedselbezorgers geldt vaak ook zoiets: minder dan X klachten per maand/kwartaal/jaar, dan klacht automatisch goedkeuren en geld terug. De kosten/baten analyse is dan evident.

Wat ging er zoal mis bij deze overheidsalgoritmes? Bij drie organisaties ging het eigenlijk om de IT-processen er omheen (beheer, beveiliging, toegang), dat sla ik even over. Een relevanter risico is de governance bij uitbesteding: de ontwikkeling en implementatie van de algoritmes of datamodellen wordt dan door een externe partij gedaan, maar de overheidsinstantie moet daar wel toezicht op houden. Dat ging bijvoorbeeld mis bij dat fotokwaliteitsbeoordelingssysteem, dat was een black box waar alleen goed/onvoldoende uit kwam zonder dat men kon zien waarom, laat staan bijstellen.

Het rapport noemt nog een belangrijke fout die ik ook herken uit de praktijk:

Vaak wordt bij de verwerking van gegevens in massale processen vertrouwd op foutmeldingen en gaat men ervan uit dat de afwezigheid van foutmeldingen een garantie is voor de juiste werking van het algoritme. Dat is niet altijd het geval.
Zeker als het gaat om ‘zwakke’ klanten (zoals bij bijstand of toeslagen) moet je echt meer hebben dan een piepsysteem. Dit is trouwens ook waarom dat systeem van “laag risico = automatisch goedkeuren” riskant is, mensen kunnen onterecht in de bak laag risico zitten (of juist niet) en dat wordt dan niet opgemerkt.

De laatste die ik eruit licht, is de bias of vooringenomenheid in model of data. Dit is een lastige, want er is veel over te doen maar dit onderwerp zit ook vol met misverstanden. Zo stellen mensen bias vaak gelijk aan het strafbare feit discriminatie. Bias kan echter over van alles gaan, denk aan een aselecte steekproef uit de brondata, zonder dat je meteen een ethische groep, gender of andere groep op de korrel wil nemen. En zelfs als zo’n systeem expliciet onderscheid maakt naar zeg gender of ethiciteit dan kan dat onbedoeld zijn, of het gevolg van een onbewust onderscheid bij de mensen die de dataset hebben gevoed.

Het onderzoek laat zien dat er zelden wordt gecontroleerd op bias of de over- of ondervertegenwoordiging van bepaalde groepen. Dat is wel belangrijk, want het kan zomaar je data in sluipen:

Stel dat in het verleden samenwoonfraude intensiever is aangepakt en dat met deze gegevens een algoritme wordt ontworpen voor fraudedetectie. Dan zal het algoritme samenwoonfraude beter voorspellen, omdat deze vorm van fraude vaker voorkomt in de data. En als samenwoonfraude vooral door vrouwen wordt gepleegd dan is sprake van bias naar vrouwen toe.
Van eerdere blogs weet ik dat er nu reacties komen van het soort: maar fraude is fraude, als je zo dus meer samenwoonfraude door vrouwen weet te vinden dan heb je meer fraude gevonden en die kun je dan bestrijden. Dat mag zo zijn, maar als overheid heb je ook de plicht om je fraudebestrijding eerlijk te verdelen, zonder onderscheid naar kenmerken zoals gender of etniciteit. Als de politie alleen mannen boetes geeft voor door rood licht fietsen, en de vrouwen laat gaan, dan klopt dat gewoon niet. Ook niet als de mannen het tien keer vaker doen.

Dan nog het onderwerp transparantie, wat van belang is omdat je (onder meer vanwege de AVG) moet uitleggen hoe zo’n systeem werkt, wat er gebeurt en hoe de uitkomst tot stand is gekomen. Het rapport maakt onderscheid tussen technische en procedurele transparantie, en merkt terecht op dat weinig mensen willen weten hoe het technisch precies werkt. De procedurele transparantie (welke data en waarom, welke controle op de machine en waarom überhaupt een algoritme) blijkt echter vaak afwezig, terwijl dat juist is wat de burger nodig heeft.

Het rapport sluit af met een set aanbevelingen om bovenstaande beter door te voeren, ook bij organisaties die meer op afstand staan van de Rijksoverheid. Ik zou zeggen: ook de private sector kan dit prima oppakken.

Arnoud