Een fraudeaanpak van de Nederlandse Dienst Uitvoering Onderwijs was discriminerend en onrechtmatig, zegt de Autoriteit Persoonsgegevens. Dat meldde Tweakers onlangs. De frauderisicoscore werd berekend op basis van onderwijssoort, afstand en leeftijd. Dat mag niet, en ik grijp deze casus aan om eens héél fundamenteel naar algoritmische fraudedetectie te kijken.
De kern van het probleem staat in het persbericht van de AP:
DUO gaf studenten een ‘risicoscore’ door naar onderwijssoort, afstand tussen adressen en leeftijd te kijken. Voor die criteria was geen objectieve rechtvaardiging. Dat maakte deze werkwijze discriminerend en dus onrechtmatig.
Volgens de Grondwet is onderscheid op íedere grond in principe verboden – je moet een (objectieve) rechtvaardiging hebben om die grond te mogen inroepen. Je moet 16 zijn om op een ebike te mogen, omdat je (gemiddeld) pas dan genoeg ontwikkeld bent deze veilig te gebruiken. Je mag niet meer dan een uur reizen van je werk wonen, want de reistijd breekt je op zo weten wij uit ervaring. Zulke dingen.
Dat zijn bewezen regels: we hebben gezien dat deze vaak genoeg kloppen, dus daar trekken we een grens. Steeds vaker zien we datagedreven regels, waarbij de data laat zien waar de grenzen liggen. Die grenzen worden dan de criteria, en dat heet dan objectief omdat het uit Excel komt.
In dit onderzoek komt het algoritme neer op drie individuele scores, met een totaalscore (“risicofactor” of RF) als R1*(R2+R3):
- R1: het soort onderwijs. Een MBO-opleiding levert een hogere risicoscore op dan een WOopleiding.
- R2: een combinatie van leeftijd en kortste afstand tussen het adres van de student en het adres van
(een van de) ouder(s). Een kortere afstand tussen de student en de ouder(s) leidt tot een hogere
risicoscore.
- R3: een extra risicofactor op basis van leeftijd: Een lagere leeftijd resulteert in een hogere
risicoscore.
De score werd platgeslagen tot zes niveaus, van zeer hoog tot zeer laag (+onbekend). Sorteer je datadump op deze niveaus en je weet bij wie je langs moet.
Oké, maar hoe kwam men dan aan die drie factoren? Welke data-analyse had laten zien dat dat de factoren waren? Ik citeer het onderzoeksrapport: “ervaring en gezond verstand”. Dat kan ik vrij moeilijk een ‘algoritme’ of ‘data-analyse’ noemen. En ja, heel formeel is dan sprake van onrechtmatige verwerking want je kunt niet rechtvaardigen waarom deze keuzes. “Gezond verstand” is geen reden.
Maar goed, stel dat men nu wél de originele datadump had voorzien van labels “gebleken fraudeur” en “geen fraudeur”. En dan een machine learning model had laten ploegen op het onderscheid tussen die twee. En dat model had dan een correlatie gevonden volgens R1*(R2+R3). Had het dan wél gemogen?
“De data laat het zien”. Want wat ziet die data dan precies? Een correlatie, een statistisch verband. Maar correlatie is geen causatie. Als uit de data blijkt dat MBO-studenten vaker frauderen, betekent dat nog niet dat MBO het frauderen veroorzaakt. Misschien worden MBO-studenten wel vaker gecontroleerd, waardoor er meer fraude wordt ontdekt. (En dat versterkt weer de dataset, een klassieke feedbackloop.) Of misschien spelen sociaal-economische factoren een rol die we helemaal niet meenemen in de analyse en die toevallig samengaan met MBO student zijn.
Stel, we hebben een complete dataset: alle studenten, alle controles, objectief en eerlijk verdeeld. En dán blijkt dat 30% van de MBO’ers fraudeert tegenover een algemeen gemiddelde van 10%. Dan kan ik me wat voorstellen bij “is MBO student” als criterium, hoewel dit nog steeds een vorm van collectieve verdachtmaking blijkt: je bestempelt 100% van de MBO’ers als risicogeval terwijl nog steeds 70% van hen gewoon netjes studeert.
Meer algemeen is dit een
bolvormige koe: nooit van z’n leven krijg je zo’n complete, accurate en eerlijke dataset op basis waarvan je analyse gaat doen. Alleen dat zou al genoeg moeten zijn om hier zeer huiverig in te zijn.
Verder heb ik er nog een fundamenteel bezwaar bij. Datagedreven analyse mist het normatieve fundament dat we anders wél hebben bij het maken van regels. Neem die fatbike-regel: die is er niet omdat Excel dat zei, maar omdat we als maatschappij vinden dat ernstige ongevallen voorkomen moeten worden. De data ondersteunt dat (16-jarigen hebben inderdaad minder ongelukken), maar de réden voor de regel zit in onze waarden: mensenlevens beschermen, zorgkosten beheersen, verkeersverantwoordelijkheid.
Bij pure data-analyse verdwijnt dat normatieve kader. We vinden wel verbanden, maar het systeem kan niet uitleggen waarom die verbanden relevant zouden moeten zijn voor ons beleid. Tot welke grondslag, welke maatschappelijke opvatting de regel te herleiden is. Waarom we dit moeten willen. En dan belanden we in een gevaarlijke cirkel: we baseren regels op data omdat die data het “aantoont”, en vervolgens gebruiken we diezelfde data als rechtvaardiging voor de regel. Maar nergens in die cirkel zit nog het antwoord op de vraag: waarom willen we deze regel eigenlijk? Welk maatschappelijk belang dienen we ermee? Het wordt een soort zwevend systeem dat zichzelf in stand houdt, zonder verbinding met de waarden waar het eigenlijk om zou moeten gaan.
Arnoud