Meerdere algoritmen van de overheid voldoen niet aan de basiseisen (excuses, lange blog maar dit is zeg maar mijn ding)

De algoritmes die door de Rijksoverheid worden gebruikt, voldoen lang niet altijd aan de basiseisen. Van de negen getoetste algoritmes voldeden er zes niet aan de eisen, las ik bij Nu.nl. Dit blijkt uit onderzoek van de Algemene Rekenkamer. Deze zes bieden dan ook bijzondere risico’s: gebrekkige controle op prestaties of effecten, vooringenomenheid, datalek of ongeautoriseerde toegang. En omdat het kan gaan om algoritmisch besluiten (zoals verkeersboetes), is dat best schokkend.

Het toegepaste toetsingskader komt uit een eerder onderzoek, Aandacht voor Algoritmes, en bestaat uit 5 perspectieven waarbij het perspectief ethiek als rode draad verbonden is met de andere 4 perspectieven:

  • Sturing en verantwoording: eenduidigheid doel;
  • Model en data: in lijn met doelstellingen;
  • Privacy: ondermeer wettelijke verplichting verwerkingsregister;
  • ITGC: toegankelijke loginformatie;
  • Ethiek: ethische richtlijnen.
Voor wie het wil toepassen: er is een downloadbaar Excel-model om in te vullen. En wie meer wil weten over dat perspectief ethiek, in september begint onze cursus AI Compliance en Governance weer.

Het rapport Algoritmes Getoetst past het kader nu toe op negen overheidsalgoritmes, namelijk:

  1. Rijksdienst voor Identiteitsgegevens: Ondersteuning bij de beoordeling van de kwaliteit van foto’s voor identiteitsbewijzen
  2. Rijksdienst voor Ondernemend Nederland: Risicomodel dat gebruikt wordt bij de beoordeling van aanvragen voor de Tegemoetkoming Vaste Lasten (TVL)
  3. Belastingdienst Toeslagen: Ondersteuning bij de beoordeling van aanvragen voor huurtoeslag in het toeslagenverstrekkingensysteem (TVS)
  4. Centraal Bureau Rijvaardigheidsbewijzen: Ondersteuning bij de beoordeling van de medische rijgeschiktheid van mensen
  5. Politie: het Criminaliteits Anticipatie Systeem (CAS) voorspelt waar en wanneer het risico op incidenten hoog is
  6. Directoraat-generaal  (DG) Migratie: Zoekt intelligent in vreemdelingenpersoonsgegevens of iemand al eerder in Nederland is geregistreerd
  7. Centraal Justitieel Incassobureau (CJIB): Koppelt gegevens voor verkeersboetes aan op kenteken geconstateerde verkeersovertredingen
  8. SZW Inlichtingenbureau: Levert signalen aan gemeenten voor rechtmatigheidscontrole op bijstandsuitkeringen
  9. Sociale Verzekeringsbank (SVB): Ondersteuning bij de beoordeling van AOW-aanvragen.
Allemaal algoritmes, maar niet allemaal van dezelfde soort. Het rapport legt netjes uit dat ook een simpele beslisboom telt als een algoritme, net als data-koppelingen voor uitwisseling (als dit veld door filter X komt dan is het een datum en dan is het volgende veld een achternaam, zulke dingen). Maar er zijn ook algoritmes die ik ervan verdenk machine learning te zijn, zoals dat fotokwaliteitsbeoordelingssysteem van de RvIG of het lerende algoritme van de politie.

Verder hebben de algoritmes verschillende functies: vaak ondersteuning (technisch voorbereiden van data, een preselectie klaarzetten, zoekresultaten sorteren) maar soms ook besluitvorming (agent 40404 bij het CJIB) en soms van die twijfelgevallen zoals bij de ‘signalen’ van de SZW die best sturend kunnen worden opgevat – precision bias, het vooroordeel dat de computer gelijk heeft omdat deze objectief rekent en tien cijfers achter de komma heeft. Of omdat er bij iedereen wel wat te vinden is als je goed zoekt (iedere lezer van deze blog schendt minstens één regel van socialezekerheids- of belastingrecht, gegarandeerd).

Besluitvormend gaat overigens niet perse samen met complex: het toekennen van toeslagen is een simpel algoritme dat toch besluiten neemt (u heeft recht op huurtoeslag, u bent medisch geschikt om te rijden). Dat kan logisch lijken in een standaardsituatie, zoals het rapport uitlegt:

Een aanvraag wordt automatisch goedgekeurd wanneer de aanvraag door het algoritme als laag risico is aangemerkt, bijvoorbeeld omdat het bedrag waarop de aanvrager aanspraak maakt laag is en er geen aanwijzingen voor misbruik of oneigenlijk gebruik zijn. In dat geval komt er geen ambtenaar meer aan te pas.
Bij elektronicawinkel Coolblue is er (volgens mij) zo’n simpel algoritme: een vaste klant (meer dan X aankopen in 6 maanden) die een product van minder dan 10 euro koopt en retourneert, mag het houden en krijgt zijn geld terug. En bij voedselbezorgers geldt vaak ook zoiets: minder dan X klachten per maand/kwartaal/jaar, dan klacht automatisch goedkeuren en geld terug. De kosten/baten analyse is dan evident.

Wat ging er zoal mis bij deze overheidsalgoritmes? Bij drie organisaties ging het eigenlijk om de IT-processen er omheen (beheer, beveiliging, toegang), dat sla ik even over. Een relevanter risico is de governance bij uitbesteding: de ontwikkeling en implementatie van de algoritmes of datamodellen wordt dan door een externe partij gedaan, maar de overheidsinstantie moet daar wel toezicht op houden. Dat ging bijvoorbeeld mis bij dat fotokwaliteitsbeoordelingssysteem, dat was een black box waar alleen goed/onvoldoende uit kwam zonder dat men kon zien waarom, laat staan bijstellen.

Het rapport noemt nog een belangrijke fout die ik ook herken uit de praktijk:

Vaak wordt bij de verwerking van gegevens in massale processen vertrouwd op foutmeldingen en gaat men ervan uit dat de afwezigheid van foutmeldingen een garantie is voor de juiste werking van het algoritme. Dat is niet altijd het geval.
Zeker als het gaat om ‘zwakke’ klanten (zoals bij bijstand of toeslagen) moet je echt meer hebben dan een piepsysteem. Dit is trouwens ook waarom dat systeem van “laag risico = automatisch goedkeuren” riskant is, mensen kunnen onterecht in de bak laag risico zitten (of juist niet) en dat wordt dan niet opgemerkt.

De laatste die ik eruit licht, is de bias of vooringenomenheid in model of data. Dit is een lastige, want er is veel over te doen maar dit onderwerp zit ook vol met misverstanden. Zo stellen mensen bias vaak gelijk aan het strafbare feit discriminatie. Bias kan echter over van alles gaan, denk aan een aselecte steekproef uit de brondata, zonder dat je meteen een ethische groep, gender of andere groep op de korrel wil nemen. En zelfs als zo’n systeem expliciet onderscheid maakt naar zeg gender of ethiciteit dan kan dat onbedoeld zijn, of het gevolg van een onbewust onderscheid bij de mensen die de dataset hebben gevoed.

Het onderzoek laat zien dat er zelden wordt gecontroleerd op bias of de over- of ondervertegenwoordiging van bepaalde groepen. Dat is wel belangrijk, want het kan zomaar je data in sluipen:

Stel dat in het verleden samenwoonfraude intensiever is aangepakt en dat met deze gegevens een algoritme wordt ontworpen voor fraudedetectie. Dan zal het algoritme samenwoonfraude beter voorspellen, omdat deze vorm van fraude vaker voorkomt in de data. En als samenwoonfraude vooral door vrouwen wordt gepleegd dan is sprake van bias naar vrouwen toe.
Van eerdere blogs weet ik dat er nu reacties komen van het soort: maar fraude is fraude, als je zo dus meer samenwoonfraude door vrouwen weet te vinden dan heb je meer fraude gevonden en die kun je dan bestrijden. Dat mag zo zijn, maar als overheid heb je ook de plicht om je fraudebestrijding eerlijk te verdelen, zonder onderscheid naar kenmerken zoals gender of etniciteit. Als de politie alleen mannen boetes geeft voor door rood licht fietsen, en de vrouwen laat gaan, dan klopt dat gewoon niet. Ook niet als de mannen het tien keer vaker doen.

Dan nog het onderwerp transparantie, wat van belang is omdat je (onder meer vanwege de AVG) moet uitleggen hoe zo’n systeem werkt, wat er gebeurt en hoe de uitkomst tot stand is gekomen. Het rapport maakt onderscheid tussen technische en procedurele transparantie, en merkt terecht op dat weinig mensen willen weten hoe het technisch precies werkt. De procedurele transparantie (welke data en waarom, welke controle op de machine en waarom überhaupt een algoritme) blijkt echter vaak afwezig, terwijl dat juist is wat de burger nodig heeft.

Het rapport sluit af met een set aanbevelingen om bovenstaande beter door te voeren, ook bij organisaties die meer op afstand staan van de Rijksoverheid. Ik zou zeggen: ook de private sector kan dit prima oppakken.

Arnoud

 

 

10 reacties

  1. Het rapport legt netjes uit dat ook een simpele beslisboom telt als een algoritme, net als data-koppelingen voor uitwisseling (als dit veld door filter X komt dan is het een datum en dan is het volgende veld een achternaam, zulke dingen).

    Met deze uitleg is zo ongeveer alle digitale verwerking van gegevens een algoritme. Beginnend bij ieder Excelbestand met een filter of ALS-functie. Als het duidelijk onmogelijk is om volledig te voldoen, en als het vooral gaat ‘om het vinkje’ als je er terecht of onterecht van uit gaat dat e.e.a. netjes werkt, gaat men dan de moeite doen om het ‘vinkje’ proberen te halen? Ik hoop het wel, maar vermoed dat de lat hoog gaat liggen.

    Laaghangend fruit: hebben alle lezers hier deze toetsing gedaan voor de alle gebruikte spamfilters, firewalls, en virusscanners incl. die bij SaaS-leveranciers? Die bevatten duidelijk algoritmes en nemen nog geautomatiseerde beslissingen ook, incl. bias tegen mensen op vakantie in Rusland en tegen Afrikaanse prinsen met erfenis. Nog iets flauwer: wat zou een WOB-verzoek opleveren als we de rekenkamer vragen naar de toetsing van de beslisboom die ze in hun toetsing gebruikten, en die van het toetsingskader-Excelbestand?

    Mijn punt is: duiding van waar de lat ligt zou goed zijn, duiding dat er geprioriteerd mag en moet worden des te meer.

    1. “Met deze uitleg is zo ongeveer alle digitale verwerking van gegevens een algoritme.” Dat klopt, maar let op dat dat dus niet betekent dat je automatisch in de hoogste toezichtsfeer zit. Het gaat erom dat algoritmes afhankelijk van hun implicaties (risico’s voor mensen) aan strenger toezicht onderworpen zijn.

      Een Excel formule =if(rand()>=0.5,true,false) om te selecteren wie je gaat controleren is een algoritme, net als "=SEARCH("m?hamm?d";A1)". Maar ik hoop dat je het met me eens bent dat die eerste minder risico’s heeft voor etnisch profileren dan de tweede. Dus die tweede moet aan strengere regels worden onderworpen.

  2. (iedere lezer van deze blog schendt minstens één regel van socialezekerheids- of belastingrecht, gegarandeerd)

    Ja echt? Ik zit toch even te peinzen. O ja, toen ik mijn auto nog op naam van de zaak had (toen mocht dat nog, ongeacht of je die wel aantoonbaar echt ervoor nodig had of gebruikte; dacht ik toch) heb ik wel eens Franse btw van daar tanken tijdens de vakantie, afgetrokken alsof het Nederlandse btw was. Dat mag niet en mocht toen ook al niet, denk ik toch, daar moe(s)t je een of andere ingewikkelde omboeking voor maken of een aanmelding voor doen. Of zo, ik ben vergeten wat precies.

    Wat erg! Maar lang genoeg geleden om het hier te durven vertellen, is vast verjaard en geen naheffing.

  3. Ik heb er al een tijdje over nagedacht, en ik gooi een mogelijke tegenstrijdelijke oplossing op. Discriminatie middels demografische pariteit.

    Voor mij (want dit is geen enkelvoudige waarheid): Fraude – en criminaliteitsbestrijding heeft discriminatie nodig. Als fraudeur of crimineel (niet als onschuldige) verlies je het recht om niet gediscrimineerd te worden. Net zoals je het recht op vrijheid van meningsuiting kan worden ontnomen, of zelfs fysiek mag worden opgetreden tegen lijf en eigendom. Als maatschappij, geven wij het monopolie op geweld uit handen. Het wordt gedreven door “de Geest” der Nederlanden, is niet aan een enkel persoon, en personen die optreden, dienen op te treden in het groter belang. Kinderbijslag fraude tast het groter belang aan, de hoop op een welvarende samenleving. Maar misbruik of onbruik van dit monopolie, een onrechtvaardige rechtsgang teveel, tast dit nog meer aan dan fraude. En fraude is ook in de kern maar menselijk en mensenwerk; Zonder criminaliteit was Batman lekker thuis gebleven.

    Maar je wil natuurlijk ook niet discrimineren. Dat het model uit de overige gegevens alsnog kan achterhalen dat het een geïmmigreerde mevrouw van 30+ is uit lage sociaal-economische klasse. Daarom moet je volop discrimineren. Niet dat model gaat dat sluw of onkundig achterhalen en witwassen, maar je hebt deze gegevens gewoon. En daar pas je fraudebestrijding als handhaver dus afgestemd of af. Afgestemd betekend ook proportioneel. Omdat je weet dat je met de stapel 50% mannen te maken hebt, ga je opzoek naar die extra auto of boot. Omdat je weet dat je met de stapel 50% vrouwen te maken hebt, ga je opzoek naar kinderbijslag. Je kan dus specialiseren: de werkkracht eerlijk en slim verdelen. Dan heb je departementen, die specifiek kijken naar fraude bij Marokkaanse vrouwen, lijkt me handig als die ook een woordje Berbers spreken. Kun je insteken, dat mevrouw mag rehabiliteren, in plaats van die grote boete die alleen maar een gehele familie buiten spel zetten, dat zoiets in een Nederland helemaal niet hoeft, en dat in een rechtvaardig Nederland, als je denkt een brood te moeten stelen, een welvaart aan sociale instellingen je willen en kunnen helpen. Fraude, zoals criminaliteit, schaadt niet alleen de samenleving, maar ook het individu. Verloren, verspeelde, of ongegunde kansen aan die kinderen van die vrouw, omdat ze niet kon wachten tot de vruchten van de boomgaard rijp zijn. Geef ze. Met specialiteit, en barmhartigheid, proportioneel, en met gerechtigheid. Ze verdienen die kans.

    1. Ik maak dus onderscheid tussen rechtvaardige en onrechtvaardige discriminatie en positieve en negatieve (of neutrale) discriminatie.

      Rechtvaardige positieve discriminatie is de Marrokaanse vrouw met bijstandsfraude in sociaal vangnet te plaatsen, maar die witte man met extra boot krijgt een relatief hoge boete, hoog genoeg om in de kroeg bij vrienden te klagen wat deze frats hem wel niet gekost had (rechtvaardige negatieve discriminatie van een groep die dat wel aankan, net zoals de politie ook haar monopolie op geweld schaald naar vreedzame krakersprotest of opgefokte voetbal hooligans).

      Die Marrokaanse stagairs net wat meer kansen geven middels een overheid-bedrijfssamenwerking, zodat niet telkens Mohammed bij dat laatste vangnetbedrijf eindigt, maar met kunde, gelijke kansen krijgt, zonder soms onontkoombaar linkende discriminatie. Rechtvaardige positieve discriminatie. Dat traject is gespecialiseerd om te gaan met die slimme jongens, kent de cultuur, en kijkt naar kleur alvorens naar kunde te kijken. Je maakt van een kleurenblinde geen kunstkenner van Van Gogh. Die kleurenblindheid opdwingen aan mensen die wel kleur bekennen, dat zal niet tot oprechte rechtsspraak leiden. Die enkele gevallen van onschuld, los je beter op met specialisten. En voor de rest: machinaal leren geeft zoveel waarde en kracht om betere beslissingen te maken. Als je met je hoofd tegen een paar takken loopt, dan kap je ook niet alle bomen. Je blijft voortaan weg van zulke fouten; netzogoed menselijke fouten, van vaak mensen met een goed hart voor onze samenleving. Geef die tools voor betere beslissingen! De fraudeur heeft Google en de kroeg reeds.

      1. De wijze, te prijzen, te modeleren, te eren, rechtsspraak van Koning Solomon wist dat alleen een echte moeder liever afstand deed van haar kind, dan dat het iets mocht overkomen. Hij moest daarvoor wel stiekem een oogje onder de blinddoek richten. Rechtsspraak kan pas proportioneel zijn als het is afgericht op de mens, met al haar unieke beschermde en onbeschermde eigenschappen. Dan verblind door empathie het juiste voor de samenleving doen.

        1. En ik vindt, in bepaalde omstandigheden, dat een bedrijf ook de mensen waarmee het zaken doet mag discrimineren, mits het de kop niet in het zand steekt, maar verantwoordelijkheid neemt voor haar (geautomatiseerde) beslissingen.

          Een commercieel blackbox fraudemodel met hoge accuraatheid, eerlijkheid, en mogelijkheid tot tegenspraak, dat is dan zoals zaakwaarneming voor de samenleving. Je wil de bedrijven in je economie, met goede intenties, beschermd zien tegen fraudeurs; dat zij de hoge belasting bij winst kunnen bijdragen, niet de bijstandsfraudeursbende die elke winst, wat ze afromen van harde werkers en onschuldigen, zeker in eigen zak steekt. Als je een inbreker betrapt, omdat je de zwarte man niet vertrouwde die bij de tuin van de buren stond te loeren, dan is het nog steeds een goed idee om de politie te bellen. Maar zoiets is niet te eren of wil je niet modeleren. De politie die daar juist wat vaker rond gaat en een praatje doet wel.

          1. Zelfs al is het oneerlijk voor bepaalde criminelen, maar liefst natuurlijk niet, we dienen onze welvaart zo eerlijk mogelijk te verdelen.

            In een werkelijk vrije maatschappij, krijg je zelfs de vrijheid om de criminaliteit in te gaan, als wij daarom de vrijheid tot gelijke discriminatie de maatschappij misgunnen, dan is zulke maatschappij niet werkelijk vrij meer, en mag het lekker doen in Excel wat het wil.

            1. Het niet invoeren van een sociaal krediet systeem, of volledig accuraat criminaliteitsopsporingsmodel brengt legitieme risico’s met zich mee. Als men voor discrimineren is, dan moet men natuurlijk verdedigen dat het monopolie op geweld niet misbruikt zal gaan worden. Maar als men tegen is, dan moet men verdedigen dat een andere maatschappij, zoals die van Rusland of China, op onze maatschappij zulke modellen loslaat: een anti-sociaal krediet systeem, wat bijvoorbeeld mensen als Quincy Gario of Baudet geld en digitale aandacht kan geven, of de gedetecteerde Nederlandse hackers, fraudeurs, en oplichters, kan voorlichten hoe ze uit de handen van politie en justitie kunnen blijven. Je staat als maatschappij niet alleen op het wereldtoneel, en als je blind gemaakt bent en huiverig bent om op te treden, dan geef je naakte toegang aan de maatschappijen die dit wel doen. En in een blinde maatschappij is eenoog koning. Vrouwe Justitia heeft ook dat zwaard, wil je die echt geblinddoekt de arena in sturen? Verdedig dat, en verdedig haar dan maar ook, want dat zal ze nodig hebben.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.