Meerdere algoritmen van de overheid voldoen niet aan de basiseisen (excuses, lange blog maar dit is zeg maar mijn ding)

| AE 13351 | Informatiemaatschappij, Innovatie | 10 reacties

De algoritmes die door de Rijksoverheid worden gebruikt, voldoen lang niet altijd aan de basiseisen. Van de negen getoetste algoritmes voldeden er zes niet aan de eisen, las ik bij Nu.nl. Dit blijkt uit onderzoek van de Algemene Rekenkamer. Deze zes bieden dan ook bijzondere risico’s: gebrekkige controle op prestaties of effecten, vooringenomenheid, datalek of ongeautoriseerde toegang. En omdat het kan gaan om algoritmisch besluiten (zoals verkeersboetes), is dat best schokkend.

Het toegepaste toetsingskader komt uit een eerder onderzoek, Aandacht voor Algoritmes, en bestaat uit 5 perspectieven waarbij het perspectief ethiek als rode draad verbonden is met de andere 4 perspectieven:

  • Sturing en verantwoording: eenduidigheid doel;
  • Model en data: in lijn met doelstellingen;
  • Privacy: ondermeer wettelijke verplichting verwerkingsregister;
  • ITGC: toegankelijke loginformatie;
  • Ethiek: ethische richtlijnen.
Voor wie het wil toepassen: er is een downloadbaar Excel-model om in te vullen. En wie meer wil weten over dat perspectief ethiek, in september begint onze cursus AI Compliance en Governance weer.

Het rapport Algoritmes Getoetst past het kader nu toe op negen overheidsalgoritmes, namelijk:

  1. Rijksdienst voor Identiteitsgegevens: Ondersteuning bij de beoordeling van de kwaliteit van foto’s voor identiteitsbewijzen
  2. Rijksdienst voor Ondernemend Nederland: Risicomodel dat gebruikt wordt bij de beoordeling van aanvragen voor de Tegemoetkoming Vaste Lasten (TVL)
  3. Belastingdienst Toeslagen: Ondersteuning bij de beoordeling van aanvragen voor huurtoeslag in het toeslagenverstrekkingensysteem (TVS)
  4. Centraal Bureau Rijvaardigheidsbewijzen: Ondersteuning bij de beoordeling van de medische rijgeschiktheid van mensen
  5. Politie: het Criminaliteits Anticipatie Systeem (CAS) voorspelt waar en wanneer het risico op incidenten hoog is
  6. Directoraat-generaal  (DG) Migratie: Zoekt intelligent in vreemdelingenpersoonsgegevens of iemand al eerder in Nederland is geregistreerd
  7. Centraal Justitieel Incassobureau (CJIB): Koppelt gegevens voor verkeersboetes aan op kenteken geconstateerde verkeersovertredingen
  8. SZW Inlichtingenbureau: Levert signalen aan gemeenten voor rechtmatigheidscontrole op bijstandsuitkeringen
  9. Sociale Verzekeringsbank (SVB): Ondersteuning bij de beoordeling van AOW-aanvragen.
Allemaal algoritmes, maar niet allemaal van dezelfde soort. Het rapport legt netjes uit dat ook een simpele beslisboom telt als een algoritme, net als data-koppelingen voor uitwisseling (als dit veld door filter X komt dan is het een datum en dan is het volgende veld een achternaam, zulke dingen). Maar er zijn ook algoritmes die ik ervan verdenk machine learning te zijn, zoals dat fotokwaliteitsbeoordelingssysteem van de RvIG of het lerende algoritme van de politie.

Verder hebben de algoritmes verschillende functies: vaak ondersteuning (technisch voorbereiden van data, een preselectie klaarzetten, zoekresultaten sorteren) maar soms ook besluitvorming (agent 40404 bij het CJIB) en soms van die twijfelgevallen zoals bij de ‘signalen’ van de SZW die best sturend kunnen worden opgevat – precision bias, het vooroordeel dat de computer gelijk heeft omdat deze objectief rekent en tien cijfers achter de komma heeft. Of omdat er bij iedereen wel wat te vinden is als je goed zoekt (iedere lezer van deze blog schendt minstens één regel van socialezekerheids- of belastingrecht, gegarandeerd).

Besluitvormend gaat overigens niet perse samen met complex: het toekennen van toeslagen is een simpel algoritme dat toch besluiten neemt (u heeft recht op huurtoeslag, u bent medisch geschikt om te rijden). Dat kan logisch lijken in een standaardsituatie, zoals het rapport uitlegt:

Een aanvraag wordt automatisch goedgekeurd wanneer de aanvraag door het algoritme als laag risico is aangemerkt, bijvoorbeeld omdat het bedrag waarop de aanvrager aanspraak maakt laag is en er geen aanwijzingen voor misbruik of oneigenlijk gebruik zijn. In dat geval komt er geen ambtenaar meer aan te pas.
Bij elektronicawinkel Coolblue is er (volgens mij) zo’n simpel algoritme: een vaste klant (meer dan X aankopen in 6 maanden) die een product van minder dan 10 euro koopt en retourneert, mag het houden en krijgt zijn geld terug. En bij voedselbezorgers geldt vaak ook zoiets: minder dan X klachten per maand/kwartaal/jaar, dan klacht automatisch goedkeuren en geld terug. De kosten/baten analyse is dan evident.

Wat ging er zoal mis bij deze overheidsalgoritmes? Bij drie organisaties ging het eigenlijk om de IT-processen er omheen (beheer, beveiliging, toegang), dat sla ik even over. Een relevanter risico is de governance bij uitbesteding: de ontwikkeling en implementatie van de algoritmes of datamodellen wordt dan door een externe partij gedaan, maar de overheidsinstantie moet daar wel toezicht op houden. Dat ging bijvoorbeeld mis bij dat fotokwaliteitsbeoordelingssysteem, dat was een black box waar alleen goed/onvoldoende uit kwam zonder dat men kon zien waarom, laat staan bijstellen.

Het rapport noemt nog een belangrijke fout die ik ook herken uit de praktijk:

Vaak wordt bij de verwerking van gegevens in massale processen vertrouwd op foutmeldingen en gaat men ervan uit dat de afwezigheid van foutmeldingen een garantie is voor de juiste werking van het algoritme. Dat is niet altijd het geval.
Zeker als het gaat om ‘zwakke’ klanten (zoals bij bijstand of toeslagen) moet je echt meer hebben dan een piepsysteem. Dit is trouwens ook waarom dat systeem van “laag risico = automatisch goedkeuren” riskant is, mensen kunnen onterecht in de bak laag risico zitten (of juist niet) en dat wordt dan niet opgemerkt.

De laatste die ik eruit licht, is de bias of vooringenomenheid in model of data. Dit is een lastige, want er is veel over te doen maar dit onderwerp zit ook vol met misverstanden. Zo stellen mensen bias vaak gelijk aan het strafbare feit discriminatie. Bias kan echter over van alles gaan, denk aan een aselecte steekproef uit de brondata, zonder dat je meteen een ethische groep, gender of andere groep op de korrel wil nemen. En zelfs als zo’n systeem expliciet onderscheid maakt naar zeg gender of ethiciteit dan kan dat onbedoeld zijn, of het gevolg van een onbewust onderscheid bij de mensen die de dataset hebben gevoed.

Het onderzoek laat zien dat er zelden wordt gecontroleerd op bias of de over- of ondervertegenwoordiging van bepaalde groepen. Dat is wel belangrijk, want het kan zomaar je data in sluipen:

Stel dat in het verleden samenwoonfraude intensiever is aangepakt en dat met deze gegevens een algoritme wordt ontworpen voor fraudedetectie. Dan zal het algoritme samenwoonfraude beter voorspellen, omdat deze vorm van fraude vaker voorkomt in de data. En als samenwoonfraude vooral door vrouwen wordt gepleegd dan is sprake van bias naar vrouwen toe.
Van eerdere blogs weet ik dat er nu reacties komen van het soort: maar fraude is fraude, als je zo dus meer samenwoonfraude door vrouwen weet te vinden dan heb je meer fraude gevonden en die kun je dan bestrijden. Dat mag zo zijn, maar als overheid heb je ook de plicht om je fraudebestrijding eerlijk te verdelen, zonder onderscheid naar kenmerken zoals gender of etniciteit. Als de politie alleen mannen boetes geeft voor door rood licht fietsen, en de vrouwen laat gaan, dan klopt dat gewoon niet. Ook niet als de mannen het tien keer vaker doen.

Dan nog het onderwerp transparantie, wat van belang is omdat je (onder meer vanwege de AVG) moet uitleggen hoe zo’n systeem werkt, wat er gebeurt en hoe de uitkomst tot stand is gekomen. Het rapport maakt onderscheid tussen technische en procedurele transparantie, en merkt terecht op dat weinig mensen willen weten hoe het technisch precies werkt. De procedurele transparantie (welke data en waarom, welke controle op de machine en waarom überhaupt een algoritme) blijkt echter vaak afwezig, terwijl dat juist is wat de burger nodig heeft.

Het rapport sluit af met een set aanbevelingen om bovenstaande beter door te voeren, ook bij organisaties die meer op afstand staan van de Rijksoverheid. Ik zou zeggen: ook de private sector kan dit prima oppakken.

Arnoud

 

 

Moet de overheid zerodays wel of niet gebruiken in de handhavings- en inlichtingendiensten?

| AE 12832 | Regulering | 7 reacties

qimono / Pixabay

Op Twitter las ik deze inhaker op een NRC-column van jurist Vincent de Haan over gebruik van zero-days. “Zonder 0days wordt onze overheid nog machtelozer online dan ze nu al zijn en dat kunnen we ons niet veroorloven. Als de overheid niet digitaal kan optreden loopt onze privacy en veiligheid een groot gevaar”, aldus Ronald Prins daar. Daar stelde De Haan dus tegenover “Met behulp van [zerodays] houden autoritaire regimes journalisten, activisten en advocaten in de gaten. … Maar we moeten ons realiseren dat de Nederlandse overheid, door het gebruiken van zero-days – één van de belangrijkste ingrediënten van de Pegasus software – medeverantwoordelijk is.”

Een zeroday is security-jargon voor een kwetsbaarheid waarvan misbruik te maken is, maar die nog niet bekend is bij de maker van de software of dienst. (De etymologie is wat vaag maar lijkt afkomstig uit de warez scene waar het ging over de zeer prestigieuze actie om gekraakte software dezelfde dag als het origineel te publiceren. Het heeft dus niet perse te maken met dat de bug zero days geleden ontdekt of gemeld is of iets dergelijks.)

Wie een dergelijke kwetsbaarheid heeft, kan bij de betreffende software inbreken en bijvoorbeeld gegevens aftappen, eigen software (zoals spyware) installeren of wat je maar zou willen doen. Dat is voor criminelen aantrekkelijk maar ook voor opsporings- en inlichtingendiensten die op die manier interessante personen kunnen volgen. Of dus journalisten kunnen volgen en dan arresteren wanneer deze al te irritant worden. Zoals bij de Pegasus-software, waar deze heisa mee begon.

Het punt is dan dat overheden niet perse zelf kwetsbaarheden gaan ontdekken, maar deze ook op de vrije markt gaan inkopen. En vooral, dat die overheden vervolgens de makers niet informeren maar het gat lekker laten bestaan:

Het Pegasusschandaal is immers precies waarvoor gevreesd werd bij de invoering van de hackbevoegdheid: onschuldige mensen worden gehackt met kwetsbaarheden die bij de overheid reeds bekend waren, maar die voor het gemak van het boevenvangen niet gedicht zijn.
Prins stelt daar tegenover dat “Als duidelijk is dat 0days misbruikt worden door criminelen of andere staten moeten ze onmiddellijk gemeld worden. In het algemeen geldt dat software altijd meerdere kwetsbaarheden zal hebben. Het melden van niet gebruikte 0days maakt een product niet significant veiliger”. Dat is natuurlijk waar, maar waar het om gaat is of het ethisch is dat de overheid weet van grote kwetsbaarheden en die dan voor zich houdt omdat ze die nodig heeft voor de inlichtingen- en veiligheidsdiensten.

Natuurlijk kun je dan zeggen, als die dit nodig hebben dan is dat in het landsbelang. Maar het is nooit zo dat een dergelijk gat alléén bekend is bij de AIVD, zeker niet als het op de vrije markt is ingekocht. Want reken maar dat zo’n bedrijf diezelfde informatie verkoopt aan wie dan ook, dus de criminelen hebben dit snel genoeg te pakken. Is het dan niet juist je maatschappelijke plicht als overheid om deze lekken zo snel mogelijk dicht te krijgen?

Arnoud

Vrouw staat vaker voor dichte deur bij gemeenteportaal dan man

| AE 12744 | Innovatie | 51 reacties

Vrijwel standaard hebben alleen mannen bij gemeenten toegang tot belangrijke privégegevens over hun huishoudens, las ik bij de Stentor. Dat blijkt uit onderzoek van de krant. Steeds vaker schuiven gemeentes burgers naar online portalen voor persoonlijke informatie, belastingaanslagen (hond, huis), heffingen (riool, reiniging) en betalingsafspraken. Detail: slechts een persoon per huishouden (de belastingplichtige) krijgt toegang en dat de gemeente bepaalt wie dat is. Die keuze is onder meer gebaseerd op ‘veronderstelde betalingscapaciteit, doelmatigheid en doeltreffendheid van heffing en invordering’. Vandaar: de man.

Oké, dat was flauw. Afgezien van Staphorst (serieus) maakt geen gemeente de bewuste keuze om de man in een huishouden als enige de toegang tot de gezamenlijke belastinginformatie en dergelijke te geven. Er is gekozen voor toegang door één persoon, en daarbij wordt per gemeente een voorkeursvolgorde ingesteld. Voorheen stond “de man” daarbij als een van de criteria, maar dat is al even weg (behalve dus in Staphorst):

In de model-beleidsregels van de VNG voor het aanwijzen van een belastingplichtige is de gemene deler in de volgorde van kiezen nu zo: degene die het meeste eigendom heeft, een natuurlijk persoon boven een niet-natuurlijk persoon en de oudste ingeschrevene op het adres.
U mag nu even alle samenwonenden in uw omgeving langs deze lat leggen: wedden dat bij 80% of meer daarvan de man hier uit komt? In de meeste relaties is het huis of van de man of gezamenlijk en is de man ouder dan de vrouw. Een mooi voorbeeld van onbewuste bias zoals we die ook in de AI kennen: niemand bedóelt dat de man als enige die gegevens moet kunnen beheren, het komt alleen er zo uit (meestal) en omdat niemand heeft nagedacht dat dat onwenselijk is, is er dus geen procedure om dit eerlijker te maken:
Ook al ben je geboren en getogen in deze gemeente, en al 33 jaar getrouwd met dezelfde partner, woon je al die tijd samen in een huis dat gemeenschappelijk eigendom is en betaal je keurig op tijd de rekeningen, als jij de uitverkorene niet bent, is het systeem niet aardig tegen je en meldt het doodleuk: de ingelogde gebruiker is niet bekend.
Wat is dan wel de reden? Het lijkt een IT-keuze te zijn geweest, maar er zit iets juridisch achter. Beschikkingen zoals een aanslag onroerendezaakbelasting moeten op naam gesteld worden, je kunt niet aan “de familie Ten Brink” een aanslag richten want juridisch bestaat niet. Juridisch gezien hebben we op de Terwekselsestraat 1 de burgers Wim en Kornelia Ten Brink wonen, die een gedeelde huishouding hebben. Aan twee personen dezelfde aanslag uitreiken leidt tot gedoe zoals dubbele betalingen (of erger nog: burgers die gaan klagen dat ze twee keer moeten betalen). Daarom is zo veronderstel ik het IT-systeem ontworpen met een keuze welke van de twee burgers aangeslagen wordt.

Ja, ik zou ook denken dat enkel kíjken naar de status van een en ander geen probleem moet zijn. Je weet via de BRP of mensen gehuwd/GP zijn, en dan kun je ze (na inloggen met DigiD) toegang geven tot de informatie waartoe ze gerechtigd zijn. Je zou dan zelfs iets kunnen bouwen waarbij de eerste van het stel die de aanslag ‘pakt’ als enige ermee verder mag, of een algemene keuze inbouwen “wie van u gaat de financiën doen”. Maar dat is complex en vereist vele, vele koppelingen en dubbelchecks. Weinig dingen zo vervelend als dergelijke IT-projecten. Dus ik snap wel dat gemeenten kiezen voor de iets simpeler oplossing van zelf iemand aanwijzen.

Arnoud

Gemeenten zouden op grote schaal burgers bespieden op sociale media

| AE 12672 | Regulering | 10 reacties

Nederlandse gemeenten zouden op grote schaal meekijken met burgers op sociale media, zo las ik bij Nu.nl (op gezag van dit rapport). Controversieel is dat de gemeente onder meer nepaccounts gebruikt, terwijl dit niet zou zijn toegestaan. “Een methode die alleen politie en inlichtingendiensten onder strikte voorwaarden mogen inzetten”, aldus de nieuwssite. En dat terwijl… Lees verder

Raad van State: Tweede Kamer hoeft broncode van debat-app niet openbaar te maken

| AE 12600 | Informatiemaatschappij | 1 reactie

De Tweede Kamer hoeft de broncode van de Debat Direct-app definitief niet openbaar te maken, meldde Tweakers donderdag. Dit is de einduitspraak in die zaak van laatst, waarin een IT’er al sinds 2018 probeert toegang te krijgen tot de broncode van de Debat Direct app van het parlement. De Raad van State oordeelt nu dat dit… Lees verder

Ombudsman over probleem etnisch profileren: draai bewijslast om

| AE 12589 | Informatiemaatschappij, Regulering | 81 reacties

De ombudsman heeft onderzocht hoe de overheid moet omgaan met klachten over etnisch profileren, las ik bij deze onafhankelijke instantie. De meest opmerkelijke uitkomst, volgens RTL, is het idee van de bewijslast omdraaien bij etnisch profileren. De burger mag verwachten, aldus het rapport, dat de overheid kan uitleggen op basis waarvan hij geselecteerd is en in… Lees verder

Bedrijven gehackt door bij NCSC bekend lek, had men dit moeten delen?

| AE 12155 | Informatiemaatschappij | 21 reacties

Aanbieders van digitale infrastructuur verenigd in de Stichting DINL zijn gefrustreerd over het opnieuw achterhouden van informatie over een belangrijke hack door het NCSC. Dat las ik bij Computable.nl. Het Nationaal Cyber Security Centrum (NCSC) had actuele en gerichte informatie over de hack maar deelde die niet met de bedreigde organisaties, omdat data niet binnen haar wettelijke… Lees verder

Keurig betaald met de parkeer-app en toch een bekeuring

| AE 12132 | Privacy | 30 reacties

Twee jaar geleden parkeerde rechtenhoogleraar Corien Prins haar auto in de Utrechtsestraat in het centrum van Tilburg, zo opende NRC een juridisch artikel. Ze betaalde met haar parkeer-app, die aangaf dat ze daar een uur mocht staan. Maar dat bleek niet te kloppen en ze kreeg een boete. Ja mevrouwtje, zo gaat het verhaal dan,… Lees verder

Politiek wil waakhond op algoritmes, maar ik heb liever een keurmerk voor de trainingsdata

| AE 11336 | Innovatie | 14 reacties

De Nederlandse politieke partijen D66 en CDA roepen het kabinet dinsdag in een motie op toezichthouder op te zetten die het gebruik van algoritmes bij de overheid in de gaten houdt. Dat las ik bij Tweakers maandag. De macht van algoritmes is een steeds grotere angst aan het worden: ze zijn niet transparant, ze kunnen… Lees verder

Overheidssites scheppen verwarring met cookies van Google Analytics

| AE 11206 | Privacy | 19 reacties

Maar liefst 20 procent van alle sites van de rijksoverheid maakt gebruik van de analysesoftware van Google, las ik in de Volkskrant. Alex Bik van zakelijke internetprovider BIT onderzocht de bijna 1.200 websites van de Rijksoverheid op het gebruik van Google Analytics, de software van Google waarmee sitebeheerders het bezoek aan hun sites kunnen analyseren,… Lees verder