De zwarte doos roept steeds meer zorgen op. En dan bedoel ik niet de (overigens feloranje) kast in vliegtuigen waar informatie over crashes te vinden is, maar de zogeheten black box algorithms die zonder inzicht in hun werking een uitkomst geven. In het jargon van de ‘meme’ of internetgrap: “Computer says no”. Een zorgelijke ontwikkeling immers als je bedenkt dat steeds meer besluitvorming dankzij dergelijke algoritmes plaatsvindt. Een gebrekkige motivatie zou men bij menselijk genomen besluiten niet accepteren, dus waarom dan wel bij computers? Gelukkig heeft onze Hoge Raad nu een uitspraak gedaan die een harde lijn trekt tegen zulke besluitvorming.
De term ‘algoritme’ is in dit verband een tikje misleidend. Een algoritme is een eindige reeks instructies die vanuit een gegeven begintoestand naar een beoogd doel leidt. Meestal worden deze instructies door een computer uitgevoerd. In beginsel is er dus niets ondoorzichtigs of mysterieus aan een algoritme. “Ga na of betrokkene de leeftijd van 67 jaar heeft bereikt en zo ja ga over tot AOW-uitkering” is een volkomen transparant algoritme, dat iedere SVB-ambtenaar kan uitvoeren.
De meeste algoritmes zijn echter een stuk complexer, en drijven steeds vaker op zogeheten machine learning constructies in plaats van ouderwets ontworpen procedures. Klassieke algoritmes worden opgezet als stappenplannen van bovenaf, en verfijnd of uitgebreid als de regels ingewikkelder worden of uitzonderingen moeten worden ingevoerd. In bovengenoemd voorbeeld zou eigenlijk de deelregel horen “als betrokkene na 31 december 1954 en voor 1 oktober 1955 is geboren, neem dan de leeftijd van 67 jaar en 3 maanden”. Latere wetgeving kan nog meer regels doorvoeren, zoals wat te doen als iemand vele jaren in het buitenland heeft gewoond. Dit alles blijft relatief overzichtelijk.
Machine learning algoritmes werken van onderaf. Zij analyseren bestaande historische gegevens en destilleren daaruit patronen, die vervolgens worden omgezet in regels. Een dergelijk algoritme zou bijvoorbeeld uitkeringsfraude kunnen detecteren door in uitgavenpatronen van gerechtigden te zoeken naar voor fraude typische handelingen zoals op onregelmatige momenten grote bedragen ontvangen of vanaf de 15e van de maand niets meer te pinnen (omdat dan het zwart geld handje contantje wordt ontvangen).
Deze algoritmes zijn dus niet met vooraf opgestelde regels geformuleerd, maar kunnen uitsluitend vaststellen of een nieuwe casus voldoet aan het gedetecteerde patroon. Zo’n patroon is dan niet eenvoudig verklaarbaar, althans niet in een vorm waar mensen genoegen mee nemen. Effectief komt het algoritme niet verder dan “uw gedrag lijkt heel sterk op dat van fraudeurs, dus bent u volgens ons een fraudeur”. Nadere uitleg waaróm men dan lijkt, blijft vaak achterwege of komt neer op een opsomming van factoren waar moeilijk een voor juristen herkenbare regel van te maken is.
Een bijkomstigheid is dat dergelijke algoritmes vaak worden ontwikkeld door private bedrijven, die de effectiviteit van hun algoritme als belangrijkste verkoopargument aandragen. Het is dan ook essentieel voor hen dat zij geen inzicht hoeven te geven in de details van het algoritme, immers anders doet de concurrent morgen hetzelfde. Ook daardoor is sterk het beeld ontstaan dat algoritmes ondoorzichtige dozen zijn, er mag immers niet in worden gekeken.
Wanneer dergelijke algoritmes worden ingezet voor juridische besluitvorming, ontstaat een groot probleem. Een bestuursorgaan of rechtbank neemt dan een besluit, waarbij een deel van de motivatie gebaseerd is op een ondoorzichtige doos die ja of nee zegt. Een heldere motivatie is kern van een goede besluitvorming. Immers het is de motivatie waarop men een besluit in hoger beroep aanvecht.
Terecht dan ook dat de Hoge Raad bij arrest van 18 augustus een duidelijke streep in het zand trekt: wanneer een bestuursrechtelijk besluit geheel of ten dele het resultaat is van een geautomatiseerd proces, moet het bestuursorgaan zorgdragen voor de inzichtelijkheid en controleerbaarheid van die keuzes, aannames en gegevens. Anders kan een belanghebbende de juistheid van de bij dat geautomatiseerde proces gemaakte keuzes en van de daarbij gebruikte gegevens en aannames niet controleren en betwisten.
De zaak betrof de modelmatige waardebepaling in het kader van de uitvoering van de Wet WOZ. Deze waardebepaling vindt in eerste aanleg geautomatiseerd plaats. Hiertoe worden door (nagenoeg uitsluitend externe) softwareontwikkelaars taxatiemodellen ontworpen die per gemeente worden gevuld met de relevante objectgegevens en de beschikbare verkoopinformatie. Op grond van modelmatige analyse worden in het taxatiemodel onder meer staffels berekend die kunnen worden gebruikt voor het bepalen van de grondwaarde van het te taxeren object, met inachtneming van het type object en de ligging van de onroerende zaak. De staffels zijn opgenomen in de software en dus niet inzichtelijk voor de ambtenaren die ermee werken, laat staan voor de betrokkenen die de waardebepaling aangezegd krijgen.
De Hoge Raad ziet een dergelijke manier van werken in strijd met fundamentele beginselen van een goede besluitvorming. Een belanghebbende kan in geval van besluitvorming op basis van een computerprogramma dat vanuit zijn perspectief is te beschouwen als een zogenoemde “black box” immers niet controleren op basis waarvan tot een bepaald besluit wordt gekomen. Het is dan onmogelijk een fatsoenlijk bezwaar daartegen te formuleren. Het verbaast dan ook niet dat de HR de betrokkene gelijk geeft.
Terug naar de tekentafel, of eigenlijk rekentafel dus voor de gemeente. Echter, dat roept de vraag op hoe een nieuw besluit dan wél fatsoenlijk tot stand kan komen. Het is immers het gewone werkproces waarbij deze gegevens als black box worden gebruikt. In feite zou de gemeente nu de staffels opnieuw moeten construeren en als transparante tabellen moeten aanbieden, zodat ze als duidelijke onderbouwing en grondslag kunnen dienen. Dat zal buitengewoon veel werk kosten, en dat was nu precies waarom men die software van derden afnam.
Een ander probleem is dat dergelijke nieuwe staffels mogelijk minder van kwaliteit zullen zijn. De bestaande ontransparante staffels voldoen namelijk vaak wel in hoge mate. Dat is de keerzijde van zo’n breed computeralgoritme dat op basis van data-analyse tot stand komt: het wérkt wel heel goed. Het is immers gebaseerd op de feitelijke situatie, niet op hoe men op papier bedenkt dat dingen zouden kunnen zijn. Het dilemma van de algoritmes: wil men een mooi model dat niet past bij de werkelijkheid, of een passend model dat onverklaarbaar is?
Arnoud
Dit is nog steeds een algoritme als bedragen groter x en/of geen pin na maanddag y
Black box is we storten 10000 uitkeringsgerechtigden in een ML en geven aan deze 200 zijn als fraudeur tegen de lamp gelopen. Nu stoppen we mevrouw jansen er in en de rode lamp gaat branden (omdat de file > z% fraudelevel is).
Waarom? Omdat bovenstaande patroon in de blackbox zit maar wellicht omdat alle 200 fraudeurs een naam hebben met “ans” er in of {voeg vage cluster in}. Je weet het eigenlijk niet behalve computer says NO op de juiste files als we de test set er doorheen jagen.
In mijn nieuwsfeed naast Arnouds artikel ook een ander over precies zo’n black box algoritme. Interessant leesvoer: https://gizmodo.com/predictim-claims-its-ai-can-flag-risky-babysitters-so-1830913997
Hmm. Onroerende zaken waarderen is zowieso erg lastig. Als je het aan (een groep) makelaar/taxateur vraagt krijg je ook een wazig and onzekere berekening. De gronden waarop die taxateur de waarde bepaald zullen ook deels subjectief zijn (zwarte doos in het hoofd van de taxateur), maar wellicht ziet de taxateur minder dingen over het hoofd. Een andere manier is zoals in Engeland huizen opdelen in banden en de belasting per band bepalen. Alleen bij huizen aan bandsgrenzen is het moeilijk, de meeste huizen zijn vrij duidelijk wat betreft waarde.
Is het niet zo dat bepaalde typen van machine learning (bijvoorbeeld random forests) wel goed inzicht kunnen geven in het beslisproces? Daarnaast: terecht dat er geen besluiten van overheidswege mogen worden genomen door black box-algoritmes, maar risico’s indiceren is wel mogelijk. Dan is het resulterende besluit ten dele het resultaat van een algoritme, maar heeft een persoon daarna nog (uitgebreid) naar de casus gekeken. Dus niet:
Maar een algoritme dat zegt “uw gedrag lijkt heel sterk op dat van fraudeurs, dus een ambtenaar neemt uw zaak in behandeling – onze beschikking krijgt u daarom later dan gebruikelijk.”Als overheid mag je niet discrimineren (op geloof, huidskleur, …). Daarom de volgende uitdaging: “Toon maar aan dat Uw zwarte-doos-fraudeur-indicator niet een van de ongeoorloofde onderscheiden maakt.”
Zolang de uiteindelijke beslissing niet afhankelijk is van die factoren wordt er toch niet gediscrimineerd?
Als het UWV bij alle autochtonen de WW uitbetaalt voordat ze vragenformulier x356 ingevuld, maar bij mensen met allochtone achtergrond eerst het ingevulde x356 formulier gaat beoordelen voordat de uitbetaling start, is dat dan discriminatie of niet? Een vertraging van twee maanden in de uitbetaling van een uitkering is voor veel mensen vervelend.
Als de beschikking op dezelfde datum ingaat (en na een vergelijkbare periode wordt meegedeeld), ondanks het fraude-onderzoek, zie ik geen reden om naar een mogelijk discriminatoir algoritme in de black box te zoeken. Vertragingen veroorzaakt door “extra onderzoek” kunnen voor de burger vervelend uitpakken.
Voor de juristen onder ons: de Afdeling bestuursrechtspraak van de Raad van State deed al eerder dergelijke uitspraken. zie ECLI:NL:RVS:2017:1259 (waarnaar in de uitspraak van de HR wordt verwezen), overweging 14.2 en 14.4 over hoe en wanneer het bestuursorgaan die gegevens inzichtelijk moet maken. Een verfijning van de laatstgenoemde regels staat in ECLI:NL:RVS:2018:2454, zie overweging 23.4 en 23.5.
als de software open source is, is er niets aan de hand. geldt ook voor de Huawei en 5G troubles.