Meerdere algoritmen van de overheid voldoen niet aan de basiseisen (excuses, lange blog maar dit is zeg maar mijn ding)

| AE 13351 | Informatiemaatschappij, Innovatie | 10 reacties

De algoritmes die door de Rijksoverheid worden gebruikt, voldoen lang niet altijd aan de basiseisen. Van de negen getoetste algoritmes voldeden er zes niet aan de eisen, las ik bij Nu.nl. Dit blijkt uit onderzoek van de Algemene Rekenkamer. Deze zes bieden dan ook bijzondere risico’s: gebrekkige controle op prestaties of effecten, vooringenomenheid, datalek of ongeautoriseerde toegang. En omdat het kan gaan om algoritmisch besluiten (zoals verkeersboetes), is dat best schokkend.

Het toegepaste toetsingskader komt uit een eerder onderzoek, Aandacht voor Algoritmes, en bestaat uit 5 perspectieven waarbij het perspectief ethiek als rode draad verbonden is met de andere 4 perspectieven:

  • Sturing en verantwoording: eenduidigheid doel;
  • Model en data: in lijn met doelstellingen;
  • Privacy: ondermeer wettelijke verplichting verwerkingsregister;
  • ITGC: toegankelijke loginformatie;
  • Ethiek: ethische richtlijnen.
Voor wie het wil toepassen: er is een downloadbaar Excel-model om in te vullen. En wie meer wil weten over dat perspectief ethiek, in september begint onze cursus AI Compliance en Governance weer.

Het rapport Algoritmes Getoetst past het kader nu toe op negen overheidsalgoritmes, namelijk:

  1. Rijksdienst voor Identiteitsgegevens: Ondersteuning bij de beoordeling van de kwaliteit van foto’s voor identiteitsbewijzen
  2. Rijksdienst voor Ondernemend Nederland: Risicomodel dat gebruikt wordt bij de beoordeling van aanvragen voor de Tegemoetkoming Vaste Lasten (TVL)
  3. Belastingdienst Toeslagen: Ondersteuning bij de beoordeling van aanvragen voor huurtoeslag in het toeslagenverstrekkingensysteem (TVS)
  4. Centraal Bureau Rijvaardigheidsbewijzen: Ondersteuning bij de beoordeling van de medische rijgeschiktheid van mensen
  5. Politie: het Criminaliteits Anticipatie Systeem (CAS) voorspelt waar en wanneer het risico op incidenten hoog is
  6. Directoraat-generaal  (DG) Migratie: Zoekt intelligent in vreemdelingenpersoonsgegevens of iemand al eerder in Nederland is geregistreerd
  7. Centraal Justitieel Incassobureau (CJIB): Koppelt gegevens voor verkeersboetes aan op kenteken geconstateerde verkeersovertredingen
  8. SZW Inlichtingenbureau: Levert signalen aan gemeenten voor rechtmatigheidscontrole op bijstandsuitkeringen
  9. Sociale Verzekeringsbank (SVB): Ondersteuning bij de beoordeling van AOW-aanvragen.
Allemaal algoritmes, maar niet allemaal van dezelfde soort. Het rapport legt netjes uit dat ook een simpele beslisboom telt als een algoritme, net als data-koppelingen voor uitwisseling (als dit veld door filter X komt dan is het een datum en dan is het volgende veld een achternaam, zulke dingen). Maar er zijn ook algoritmes die ik ervan verdenk machine learning te zijn, zoals dat fotokwaliteitsbeoordelingssysteem van de RvIG of het lerende algoritme van de politie.

Verder hebben de algoritmes verschillende functies: vaak ondersteuning (technisch voorbereiden van data, een preselectie klaarzetten, zoekresultaten sorteren) maar soms ook besluitvorming (agent 40404 bij het CJIB) en soms van die twijfelgevallen zoals bij de ‘signalen’ van de SZW die best sturend kunnen worden opgevat – precision bias, het vooroordeel dat de computer gelijk heeft omdat deze objectief rekent en tien cijfers achter de komma heeft. Of omdat er bij iedereen wel wat te vinden is als je goed zoekt (iedere lezer van deze blog schendt minstens één regel van socialezekerheids- of belastingrecht, gegarandeerd).

Besluitvormend gaat overigens niet perse samen met complex: het toekennen van toeslagen is een simpel algoritme dat toch besluiten neemt (u heeft recht op huurtoeslag, u bent medisch geschikt om te rijden). Dat kan logisch lijken in een standaardsituatie, zoals het rapport uitlegt:

Een aanvraag wordt automatisch goedgekeurd wanneer de aanvraag door het algoritme als laag risico is aangemerkt, bijvoorbeeld omdat het bedrag waarop de aanvrager aanspraak maakt laag is en er geen aanwijzingen voor misbruik of oneigenlijk gebruik zijn. In dat geval komt er geen ambtenaar meer aan te pas.
Bij elektronicawinkel Coolblue is er (volgens mij) zo’n simpel algoritme: een vaste klant (meer dan X aankopen in 6 maanden) die een product van minder dan 10 euro koopt en retourneert, mag het houden en krijgt zijn geld terug. En bij voedselbezorgers geldt vaak ook zoiets: minder dan X klachten per maand/kwartaal/jaar, dan klacht automatisch goedkeuren en geld terug. De kosten/baten analyse is dan evident.

Wat ging er zoal mis bij deze overheidsalgoritmes? Bij drie organisaties ging het eigenlijk om de IT-processen er omheen (beheer, beveiliging, toegang), dat sla ik even over. Een relevanter risico is de governance bij uitbesteding: de ontwikkeling en implementatie van de algoritmes of datamodellen wordt dan door een externe partij gedaan, maar de overheidsinstantie moet daar wel toezicht op houden. Dat ging bijvoorbeeld mis bij dat fotokwaliteitsbeoordelingssysteem, dat was een black box waar alleen goed/onvoldoende uit kwam zonder dat men kon zien waarom, laat staan bijstellen.

Het rapport noemt nog een belangrijke fout die ik ook herken uit de praktijk:

Vaak wordt bij de verwerking van gegevens in massale processen vertrouwd op foutmeldingen en gaat men ervan uit dat de afwezigheid van foutmeldingen een garantie is voor de juiste werking van het algoritme. Dat is niet altijd het geval.
Zeker als het gaat om ‘zwakke’ klanten (zoals bij bijstand of toeslagen) moet je echt meer hebben dan een piepsysteem. Dit is trouwens ook waarom dat systeem van “laag risico = automatisch goedkeuren” riskant is, mensen kunnen onterecht in de bak laag risico zitten (of juist niet) en dat wordt dan niet opgemerkt.

De laatste die ik eruit licht, is de bias of vooringenomenheid in model of data. Dit is een lastige, want er is veel over te doen maar dit onderwerp zit ook vol met misverstanden. Zo stellen mensen bias vaak gelijk aan het strafbare feit discriminatie. Bias kan echter over van alles gaan, denk aan een aselecte steekproef uit de brondata, zonder dat je meteen een ethische groep, gender of andere groep op de korrel wil nemen. En zelfs als zo’n systeem expliciet onderscheid maakt naar zeg gender of ethiciteit dan kan dat onbedoeld zijn, of het gevolg van een onbewust onderscheid bij de mensen die de dataset hebben gevoed.

Het onderzoek laat zien dat er zelden wordt gecontroleerd op bias of de over- of ondervertegenwoordiging van bepaalde groepen. Dat is wel belangrijk, want het kan zomaar je data in sluipen:

Stel dat in het verleden samenwoonfraude intensiever is aangepakt en dat met deze gegevens een algoritme wordt ontworpen voor fraudedetectie. Dan zal het algoritme samenwoonfraude beter voorspellen, omdat deze vorm van fraude vaker voorkomt in de data. En als samenwoonfraude vooral door vrouwen wordt gepleegd dan is sprake van bias naar vrouwen toe.
Van eerdere blogs weet ik dat er nu reacties komen van het soort: maar fraude is fraude, als je zo dus meer samenwoonfraude door vrouwen weet te vinden dan heb je meer fraude gevonden en die kun je dan bestrijden. Dat mag zo zijn, maar als overheid heb je ook de plicht om je fraudebestrijding eerlijk te verdelen, zonder onderscheid naar kenmerken zoals gender of etniciteit. Als de politie alleen mannen boetes geeft voor door rood licht fietsen, en de vrouwen laat gaan, dan klopt dat gewoon niet. Ook niet als de mannen het tien keer vaker doen.

Dan nog het onderwerp transparantie, wat van belang is omdat je (onder meer vanwege de AVG) moet uitleggen hoe zo’n systeem werkt, wat er gebeurt en hoe de uitkomst tot stand is gekomen. Het rapport maakt onderscheid tussen technische en procedurele transparantie, en merkt terecht op dat weinig mensen willen weten hoe het technisch precies werkt. De procedurele transparantie (welke data en waarom, welke controle op de machine en waarom überhaupt een algoritme) blijkt echter vaak afwezig, terwijl dat juist is wat de burger nodig heeft.

Het rapport sluit af met een set aanbevelingen om bovenstaande beter door te voeren, ook bij organisaties die meer op afstand staan van de Rijksoverheid. Ik zou zeggen: ook de private sector kan dit prima oppakken.

Arnoud

 

 

Hoe datarommel van mobieledataharkbedrijf App Annie tot een boete van de beurstoezichthouder leidde

| AE 12918 | Regulering | Er zijn nog geen reacties

geralt / Pixabay

Mobieledataverzamelbedrijf App Annie heeft voor 10 miljoen met de Amerikaanse beurswaakhond SEC geschikt, las ik bij The Verge. Ik kende ze ook niet, maar App Annie “produceert business intelligence tools en markt rapportages voornamelijk voor de app industrie”. Ze verzamelt data zoals Google Analytics bij aangesloten bedrijven, inclusief data over gebruik van de mobiele apps van die bedrijven, zodat die meer inzicht in hun appgebruik kregen. Tevens kon App Annie die data aggregeren en zo doorverkopen aan bijvoorbeeld beleggers die willen weten hoe een bepaalde branch ervoor staat. En daar ging het mis: men verkocht niet keurig enkel de geaggregeerde data.

De schikking legt uit waar het precies misging:

The order finds that App Annie and Schmitt understood that companies would only share their confidential app performance data with App Annie if it promised not to disclose their data to third parties, and as a result App Annie and Schmitt assured companies that their data would be aggregated and anonymized before being used by a statistical model to generate estimates of app performance. Contrary to these representations, the order finds that from late 2014 through mid-2018, App Annie used non-aggregated and non-anonymized data to alter its model-generated estimates to make them more valuable to sell to trading firms.
App Annie kreeg dus individuele data van bedrijven, maakte daar een statistisch model van voor sectoren en corrigeerde dat met de originele, individuele data. Vervolgens had ze heel goed passende modellen, waar beleggers gretig voor betaalden. Maar dát is natuurlijk niet de afspraak.
“App Annie sought to distinguish itself in the alternative data space by providing securities market participants with valuable information in a new and innovative way,” said Erin E. Schneider, Director of the SEC’s San Francisco Regional Office. “It went to great lengths to assure its customers that the financial and app-related data it sold was the product of a sophisticated statistical model and that it had controls to ensure compliance with the federal securities laws. These representations were materially false and misleading.”
Het bedrijf moet stoppen, en de CEO mag drie jaar lang niet in een dergelijke functie bij een beursgenoteerd bedrijf werken.

Het laat voor mij zien hoe lastig is het is om goede grip op data-hergebruik door derden (verwerker of niet, in de zin van de AVG) te krijgen. Want je kunt afspreken wat je wilt, maar als die data elders is dan heb je er vervolgens geen zicht meer op. Dit is ook waarom ik altijd zeg dat je onder de AVG niet kunt vertrouwen op welke contractuele afspraak, garantie of vrijwaring dan ook. Ga het na, en lever bij voorkeur gewoon géén individuele data.

Arnoud

 

Gaat het om open source of open API’s bij de overheid?

| AE 12568 | Regulering | 6 reacties

De overheid heeft een moeizame relatie met ict, zo poneert een interessant Tweakers-artikel over openbaarheid bij overheids-ICT-projecten. Al geruime tijd (sinds 2002, Motie-Vendrik) worstelt men met het idee van openheid bij software en data die door de overheid wordt ontwikkeld. Het sterkst is het pleidooi geweest voor het openen (bevrijden) van software. Maar zelf neig ik er steeds meer naar om te zeggen: het gaat om de data en de API’s. Dat ga ik uitleggen.

Het Tweakers-artikel gaat in op een recente rechtszaak om vrije (vrij als in vrijheid) toegang te krijgen tot de broncode van de “Debat Direct”-app, waarmee het mogelijk is om debatten in het parlement live te bekijken of achteraf terug te kijken. Er is alleen geen Linux versie, uitsluitend MacOS en Windows worden ondersteund. In maart bepaalde de rechtbank dat deze app wettelijk niet openbaar hoeft te zijn, onder meer omdat de Wet openbaarheid van bestuur niet geldt voor de Tweede Kamer en de Wet hergebruik overheidsinformatie niet geldt voor apps.

Vervolgens blijkt dat de app gewoon Javascript is, niet eens obfuscated, zodat je je kunt afvragen wat er dan niet openbaar is aan die broncode. En het gevolg is natuurlijk dat alleen een licentie nodig is, want zonder licentie mag je niets met software, hoe openbaar of publiek beschikbaar de broncode ook is.

Vanaf 2021 moet alle nieuwe software van de overheid openbaar zijn, maar dat helpt natuurlijk niet voor al die legacy software die er al is. Of voor al die data en protocollen die er achter zitten. Gelukkig is er het Open Data portaal, waar je alvast een hoop overheidsdata in kunt vinden. Maar nog lang niet alles.

En ja die API’s dus. De Application Programming Interfaces dus, de manier waarop je als applicatie tegen een andere zegt wat ‘ie moet doen of geven. Die zijn de kern van het samenwerken tussen applicaties – en van het kunnen herimplementeren van functionaliteit, zoals bij die Debat Direct app. Als je weet hoe je moet vragen om een lijst van debatten en de livestream van debat 23, dan hoef je die hele app niet meer te hebben. Dat integreer je dan zelf in je dashboard of eigen app.

Wat mij betreft is dat de kern van vrije informatie: dat je overal bij kunt en alles kunt gebruiken waar je bij kunt. Of je dat nou doet met een bijgeleverde app of dat je er zelf eentje maakt, dat hoort niet ter zake te doen. Daarom: het gaat om de data (en de API).

Arnoud

Waarom is ransomware losgeld betalen eigenlijk niet strafbaar?

| AE 12560 | Regulering | 19 reacties

Een lezer vroeg me: Zoals iedereen kan zien komt het steeds vaker voor dat organisaties worden getroffen door een ransomware aanval waarbij er losgeld moet worden betaald om weer toegang te krijgen tot de gegevens. Veel organisaties kiezen hiervoor omdat het in veel gevallen goedkoper is om te betalen, maar is dit eigenlijk niet tegen de… Lees verder

T-Mobile deelde herleidbare locatiegegevens met CBS voor bouwen van algoritme

| AE 12556 | Ondernemingsvrijheid, Privacy, Regulering | 11 reacties

T-Mobile heeft jarenlang niet-anonieme gebruikersgegevens gedeeld met het Centraal Bureau voor de Statistiek, meldde Tweakers onlangs. Deze werden gebruikt om een algoritme te bouwen waarmee mensenstromen in kaart werden gebracht. NRC Handelsblad onderzocht een overeenkomst uit 2017 tussen de twee, waarbij het slechts „een pilot-project”, zou zijn waarbij alleen met „geanonimiseerde” gegevens zou zijn gewerkt…. Lees verder

Ombudsman: overheid moet burger bij gebruik algoritmen centraal stellen

| AE 12540 | Informatiemaatschappij, Innovatie | 4 reacties

Bij het gebruik van data en algoritmen moet de overheid burgers centraal stellen, aldus de Nationale ombudsman die hiervoor een ombudsvisie ontwikkelde (via). Onder de titel “Een burger is geen dataset” dringt de ombudsman aan op transparantie, duidelijkheid en bereikbaarheid bij problemen. Je zou zeggen dat dit voor zich spreekt bij inzet van algoritmes, maar nee. Ik weet… Lees verder

Data is niets maar een man uit Spijkenisse kon ze wel stelen?

| AE 12187 | Regulering, Security | 15 reacties

Met de aanhouding van een 53-jarige man uit Spijkenisse is voorkomen dat mogelijk vele honderdduizenden persoonsgegevens op straat kwamen te liggen. Dat las ik bij Politie.nl vorige week (via). Een bedrijf in Utrecht ontdekte dat persoonsgegevens in strijd met de wet werden gebruikt (mooi stukje beveiliging/organisatorisch de AVG op orde hebben!) en deed aangifte, waarna… Lees verder

Hoe problematisch is de CLOUD Act nu echt?

| AE 12077 | Ondernemingsvrijheid | 25 reacties

Een hoop ophef en vraagtekens vorige week over het einde van Privacy Shield. Een belangrijke zorg was weggelegd voor de Cloud Act, want daarmee zouden Amerikaanse overheden ook toegang tot Europese data alhier kunnen vorderen. Daarmee zou de standaard oplossing – blijf in een Europees datacenter bij een Europees bedrijf – ook gevaar lopen. Hoe… Lees verder

Mag de politie de telefoon van een getuige leegtrekken?

| AE 11564 | Regulering | 13 reacties

Via Twitter een ietwat verontrustend item van de BBC over speciale apparatuur waarmee de politie telefoons in één keer geheel uit kan lezen. Die technologie wordt ingezet bij arrestaties, maar kennelijk ook bij telefoons van getuigen. En dan heb ik het over alles, van foto’s tot chatberichten, cache-informatie en prullenbakbestanden. De journaliste vraagt zich af… Lees verder