Politie stopt met gewraakt algoritme dat ‘voorspelt’ wie in de toekomst geweld gebruikt

De politie stopt ‘per direct’ met het algoritme waarmee ze voorspelt of iemand in de toekomst geweld gaat gebruiken, las ik bij FTM. Dit is de uitkomst van een eerdere publicatie over het Risicotaxatie Instrument Geweld (RTI-G), het zoveelste voorbeeld dat laat zien hoe inherent dubieus het is om voorspellende uitspraken over menselijk gedrag te doen op basis van datasets.

“AI snake oil”, noemt professor Arvind Narayanan van Princeton het. Uitspraken over gedrag of verwachtingen omtrent personen, aangekleed met “Artificial Intelligence” versieringen en zogenaamd perfect werkend. Haarlemmer AIoli, zou ik het haast noemen. Het komt er altijd op neer dat men een niet direct verifieerbare uitspraak doet op basis van een brokje data en een black box model, die dan heel precies klinkt en daarom vaak wordt overgenomen.

Bij een spamfilter dat een verkeerde classificatie maakt, of een AI-biometrie die je niet binnenlaat, krijg je vrij direct feedback dat het niet werkt. Een algoritme dat voorspelt of iemand gaat recidiveren of geweld gebruiken is een heel stuk lastiger – net zoals met alle juridische afwegingen, van het automatisch afwegen van een bezwaar in het bestuursrecht tot een strafvonnis genereren.

Natuurlijk handelde de politie niet blind op de uitkomst van het RTI-G, maar ‘het risicoprofiel dient te worden gezien als aanwijzing dat een strafbaar feit gepleegd gaat worden.’ En daar wordt dan wél op geageerd: een van de mensen die met FTM sprak, kreeg een schriftelijk bevel een half jaar lang op ieder gewenst moment mee te werken aan fouillering en doorzoeking van de auto. Het Hof Den Haag floot de politie terug:

De rechtspraak gaat uit van een concrete aanleiding dan wel feitelijke omstandigheden kort voorafgaand aan dan wel ten tijde van de inzet van de bevoegdheden op basis van deze artikelen. Daarvan is geen sprake als [geïntimeerde] alleen op basis van zijn aanwijzing als veiligheidsrisicosubject aan een fouillering of doorzoeking van zijn auto wordt onderworpen.
Desondanks blijft de vraag gerechtvaardigd: hoe kwam dat systeem dan tot haar conclusies? Op basis van welke gegevens en algoritmes kon men deze uitspraak doen en hoe is dat te rechtvaardigen? Ik zet het even op een rijtje uit het FTM artikel:
  1. Iemands verleden in de politiesystemen, bijvoorbeeld betrokkenheid (dader, getuige, aangever) bij geweldsdelicten, eventuele aangetroffen wapens en de optelsom van andere delicten wegen ook mee.
  2. Hoe groter het aantal registraties van (vermoedelijke) delicten bij de politie, gewogen naar de vermoedelijke samenhang met geweld.
  3. Geslacht en leeftijd; mannen meer dan vrouwen en mensen die jong een eerste delict pleegden meer dan latere plegers.
  4. Etniciteit, wat er in 2017 uitgehaald is omdat het ‘een beperkt maar toch nadelig effect op de interne beeldvorming [gaf] voor een individu.’ Een Antilliaanse achtergrond telde daarbij zwaarder mee dan een Marokkaanse of Somalische.
Afgaande op het meegepubliceerde screenshot gaat het hier om een ‘klassiek’ beslissysteem, namelijk een veredelde Excelsheet die aan elke factor punten geeft en een totaalsom maakt:Hoogleraar digitale surveillance Marc Schuilenburg is vernietigend: de resultaten zijn ‘uit de lucht gegrepen’, er is geen enkele validatie laat staan een feedbacksysteem om fouten te corrigeren.
Volgens hem is Nederland een ‘voorzorgsmaatschappij’ geworden. ‘In de politiek en de samenleving gaat het om het voorkomen van potentiële risico’s,’ aldus Schuilenburg. ‘Vroeger was er eerst een verdenking en dan pas surveillance. Nu is er eerst surveillance en dan pas een verdenking.’
Het ergerlijke voor mij is vooral dat de uitkomsten van die surveillance worden aangekleed met een sausje van juistheid: kijk maar, het getal rechtsonder is 970 dus dit klopt echt, en ik zie ook vijf donkerrode vlakken dus het is ernstig ook. (Dit staat bekend als “precision bias” in het vakgebied.) Maar garbage in, garbage out: hoe weet je of het klopt?

En nee, het is nu te makkelijk om te zeggen “door gewoon die mensen te fouilleren en te zien of ze wapens hebben”. Even los van wat de wet daar dus over zegt, als je handelt vanuit een foute aanname dan komt daar nooit een goed resultaat uit. Ja, misschien vind je een wapen en misschien zelfs vaker bij Antilliaanse verdachten dan bij Nederlandse boerenzonen. Maar bewijst dat dat je startpunt klopte?

Arnoud

 

19 reacties

  1. Sja, waarschijnlijk een open deur, maar door dit soort geintjes gaat de politie dan vaker bij antilianen fouilleren dan bij nederlandse boerenzonen. En als je dat doet, ga je natuurlijk ook vaker wapens vinden bij antilianen. Dat zegt dan niks over die nederlandse boerenzonen, behalve dan dat je niet weet of die vaker of minder vaak wapens hebben.

    Op deze manier worden dit soort systemen altijd van die ourobourossen: slangen die in hun eigen staart bijten. AI maakt dat alleen maar erger, door de veel grotere schaal waarop (een persoon met) AI dingen kan doen.

  2. Even de kant van de politie en de bezuinigende regering kiezen;

    Hoe zou je door AVG-conform gebruik kunnen maken van misdaadcijfers om zo efficiënt mogelijk criminaliteit te bestrijden?

    Ik heb namelijk het gevoel dat we nog wel eens de plank mis kunnen slaan, door opzettelijk niet te kijken waar rook is… Je gaat ook niet flitsen op de Oudedijk te Drieborg als je veel snelheidsovertreders wilt vangen, dat doe je op de A2.

    1. Het probleem is: hoe weet je vooraf dat op de A2 meer snelheidsovertredingen worden begaan dan op de Oudedijk? Dan kom je vaak al heel snel uit bij “intuïtie” (onaardig gezegd de onderbuik) of historische ervaringen. Beiden zijn niet ideaal, want kunnen vertekening bevatten. Als er nooit gekeken is op de Oudedijk maar daar wordt wel veel geraced, moet je dan niet juist daar eens beginnen met handhaven?

      1. Als je Bayesiaanse statistische methoden op de goede manier toepast kun je uitgaande van een beginschatting voor je parameters in de loop van de tijd uitkomen op een meer correcte schatting.

        De vraag blijft in hoeverre de voorspellende waarde van dit soort modellen het politiewerk vooruit helpt. Als Pietje weet dat hij bijna dagelijks gefouilleerd wordt, laat hij zijn verboden spullen toch door Jantje dragen.

      2. Dat is waar, maar de vraag blijft; hoe kan je op een conforme wijze gebruik maken van data over misdaad die beschikbaar is? Want het is natuurlijk ook niet zo dat historische informatie geen enkele waarde heeft. Als bijvoorbeeld er bijzonder veel drugs aangetroffen wordt in de haven van Rotterdam in containers met tropisch fruit, dan zou het heel gek zijn om te stoppen met het controleren van containers met tropisch fruit omdat die historische informatie vertekenend zou kunnen zijn, of stigmatiserend jegens handelaren in tropisch fruit. Ik zeg nadrukkelijk niet dat je alleen en uitsluitend containers met tropisch fruit moet controleren, maar als dat een veelgebruikte methode blijkt dan is het zotheid om bewust te stoppen met die controleren. Je blijft dat dan doen tot het punt is bereikt dat uit de cijfers blijkt dat het percentage (dus niet het absolute aantal want dat is gerelateerd aan het aantal gecontroleerde containers, maar het percentage hit/miss) drugs in tropisch fruit weer gelijk is aan het percentage drugs in andere vracht. Je moet natuurlijk ook niet je handelen baseren op decennia oude cijfers en die niet bijwerken, of je beleid niet aanpassen als de cijfers veranderen.

        We doen dit eigenlijk overal zo, bedrijven en overheden gebruiken gegevens om voorspellingen te doen over hoeveel zorg er in de toekomst nodig is, hoeveel spoor- en wegcapaciteit er moet komen, hoeveel grondstoffen er moet worden ingekocht en ga zo maar door. Waarom zouden we niet, op basis van beschikbare gegevens, kijken of we misdaadbestrijding beter of efficienter kunnen doen? Als gewoon blijkt dat van elke 100 aangehouden Verwegistanners er 90 een pistool bij zich hadden, terwijl er van elke 100 aangehouden Zakkestaniers er 0 een wapen bij zich droeg dan lijkt me dat relevante informatie. Sterker nog, als agent zou ik het zeer ernstig vinden als mij verboden zou worden om, op basis van die feiten, bij het aanhouden van een Verwegistanner bepaalde voorzorgsmaatregelen tegen een gewapende verdachte in acht te nemen. Evenzo, als 90 van de 100 aangehouden Cocumbuelanen drugs bij zich draagt, dan zou het toch zotheid zijn om bewust te stoppen met het fouilleren van Cocumbuelanen uit angst dat stigma in stand te houden?

        Natuurlijk, dat spreekt uiteraard voor zich, is het van belang om te zorgen dat elke individuele aangehouden verdachte op correcte wijze behandeld wordt, en dat diens individuele rechten gerespecteerd blijven. Dit ligt vooral op het niveau van de wetshandhaving op straat en in de praktijk. Maar sturing geven aan beleid, processen aanpassen op basis van data, of capaciteit inzetten op basis van historische gegevens lijkt mij gewoon zinvol en efficient. En, ik denk dat we daar ook gewoon eerlijk in moeten zijn, het is denk ik onmogelijk om te voorkomen dat agenten die op straat het echte daadwerkelijke werk doen hun historische kennis, intuitie en onderbuikgevoel gebruiken tijdens het doen van hun werk. Juist daarom is het van belang om goede en deugdelijke cijfers te hebben, dan kunnen bepaalde vooroordelen die leven misschien worden bijgestuurd, of kan er aandacht voor komen zodat dat onderbuikgevoel op termijn verdwijnt. Als alle agenten namelijk denken dat Verwegistanners gewapend rondlopen, terwijl uit de cijfers blijkt dat het percentage juist lager is dan gemiddeld, dan kan je door die cijfers bekend te maken dat onderbuikgevoel veranderen. Als daarentegen blijkt dat Verweggistanners echt inderdaad massaal gewapend zijn, dan is het ook wel prettig dat de uitvoerenden op straat daar rekening mee kunnen houden. Hun veiligheid is immers ook een factor van belang bij het maken van afwegingen.

        1. Als gewoon blijkt dat van elke 100 aangehouden Verwegistanners er 90 een pistool bij zich hadden, terwijl er van elke 100 aangehouden Zakkestaniers er 0 een wapen bij zich droeg dan lijkt me dat relevante informatie.

          Dit is denk ik het fundamentele punt: mag je uit de groep “aangehouden mensen van groep X” extrapoleren naar “mensen van groep X”. Want om jouw voorbeeld te nemen: als inderdaad 90 van de 100 aangehouden Verwegistanners vuurwapengevaarlijk is, dan is dus de conclusie gerechtvaardigd dat iedere Verwegistanners waarschijnlijk vuurwapengevaarlijk is. Oftewel, vanaf nu mogen we iedere Verwegistanner preventief fouilleren.

          Ik denk dat je al heel snel tegen het punt aanloopt dat je bepaalde informatie hebt genegeerd. Die Verwegistanners waren aangehouden bij het clubhuis van de verboden motorbende Turbo Tulbanden bijvoorbeeld, en de Zakkestaniers in de woonwijk.

          Niemand zegt dat je totaal moet stóppen met wat je deed.

        2. Ik denk dat de getallen die jij in je voorbeelden noemt onrealistisch zijn. Het is maar een klein deel (enkele procenten) van iedere bevolkingsgroep die zich structureel met misdaad bezig houdt en de verschillen tussen bevolkingsgroepen zijn ook niet zo groot.

          Je zou de vraag moeten stellen: van groep A (2% van de bevolking) is een redelijke schatting dat 3% vuurwapens op straat draagt, bij groep B (8%) is dat 1%. Wat betekent dat voor je beleid bij preventief fouilleren?

  3. “En nee, het is nu te makkelijk om te zeggen “door gewoon die mensen te fouilleren en te zien of ze wapens hebben”. Even los van wat de wet daar dus over zegt, als je handelt vanuit een foute aanname dan komt daar nooit een goed resultaat uit. Ja, misschien vind je een wapen en misschien zelfs vaker bij Antilliaanse verdachten dan bij Nederlandse boerenzonen. Maar bewijst dat dat je startpunt klopte?”

    Rechtsfilosofisch vind ik dit toch een leuk onderwerp. Uitgesproken deontologisch uitgangspunt. Rond voorspellende modellen zie ik dat toch net anders en zou ik (met enige waarborgen) toch voor een bijna utilitaristisch framework gaan. Een model is zo goed als zijn voorspellingen, ongeacht de onwaarheden die betrokken worden in het doen van de voorspelling.

    Neem het voorbeeld van de DUO. Ik geloof dat de hit- en succesrate bij fraude van het racistische model aardig goed waren. Dan betreur ik alleen evt. bovenmatige controles bij de niet-fraudeurs. Uiteraard komt in me op dat het racistische model (dus) ook zorgde voor een lage pakkans bij autochtone frauders. Dat is oneerlijk, en maatschappelijk een gemiste kans, maar ik betwijfel of het onrechtvaardig is. Dat is toch de boevenethiek waarbij de ene boef klaagt dat de andere boef niet gepakt wordt. (Nogmaals: de omgang met de false positives, daar zit voor mij een werkelijk ethisch probleem.)

    Reden om hierop te reageren is dat ik de overtuiging heb dat ieder mens en ieder systeem dagelijks beslissingen neemt op basis van foute informatie. La condition humaine. Ik zie dat niet als reden om fundamenteel niet te handelen. Wel voor gepaste voorzorgen en waarborgen. Gezien de vele schandalen is een fatsoenlijk procesrecht (Belastingdienst, DUO) wel een noodzakelijke voorwaarde voor deze gedachte. (Quod non. Dus filosofie & weg met de hobbymodelletjes bij de overheid.)

    1. Willem, hoe zie je het als de methodiek van de fraudedetectie bepaalde groepen een grotere kans geeft om als “fraudeur” bestempeld te worden dan andere groepen in een vergelijkbare situatie. Bijvoorbeeld in het geval dat de ouders of verhuurders onvoldoende Nederlands begrijpen om het in ambtelijke taal opgestelde vragenformulier te begrijpen. Of omdat autochtonen eerder en makkelijker een advocaat zoeken en daarmee een strafbeschikking (eventueel door de rechter) teruggedraaid krijgen?

      1. Alle modellen kennen gebreken. Zeker modellen die relatief extreme events proberen te schatten. Het beste is een korte cyclus van voorspelling — toets — herkalibratie — voorspelling (etc).

        Een voorspellend model zou geen stempels mogen geven. Alleen kansen. De keuze om nader onderzoek te doen op basis van een drempel, liefst aangevuld met feiten is een menselijke keuze. Het kan al zo eenvoudig zijn als een relatief oprecht belletje. Modellen mogen niet bestempelen en zeker niet met serieuze rechtsgevolgen.

        Rechtszekerheid is belangrijk. Voor mij: Iedereen op voorhand gelijke kansen en rechten. Het is snel een politieke discussie wanneer je het hebt over of en welk taalniveau je van burgers mag verwachten, of of je gelijke toegang tot juridische ondersteuning moet aanbieden, of realiseren. Ik vind dat B2-niveau qua taal en begrip van het land waar je woont en onder welke regels je leeft erbij horen. Dat heeft gevolgen voor de methodiek die ik acceptabel vind.

        Wat we zien zijn veel excessen van ambtelijke organisaties die modellen als dé waarheid neerzetten, tegelijkertijd alle procesrecht overboord gooien en tot de rechter aan toe volhouden dossiers niet te kunnen delen en parameters niet te kunnen onderbouwen. Dat is zo evident fout, dat het eigenlijk geen discussie is. De waarde van modellen sneeuwt hiermee onder en dat vind ik zonde.

  4. De surveillance is niet algemeen, maar specifiek voor mensen die reeds met justitie in aanraking zijn geweest. Ik heb daar minder tot geen problemen mee: er is een wapen aangetroffen bij je vorige arrestatie, dus nu heb je de pech wat vaker gecontroleerd te worden dan iemand zonder strafblad.

    Ook vind ik het voorspellen van gedrag middels algoritmen niet per se fout, of geklungel, of onmenselijk. Wat ik fout en geklungel vind is dat opsporingsinstanties achterlopen en, ondanks mogelijk met techniek en data uitwisseling, nog steeds achter de feiten aanlopen, zodat een wijkagent of onderzoek geen weet heeft van crimineel verleden en aantoonbaar wapengebruik.

    Maar, dat gezegd hebbende, kunnen er natuurlijk best fouten gemaakt worden met deze techniek, of mist men het boerenverstand van de vroegere wijkagent, die van iedereen wist of deze in de bak had gezeten of was beboet voor dronken rijden, en daar dan handhaving en controles op aanpast. Dat betekend niet dat het mes in deze techniek moet, maar dat stevig moet worden gecontroleerd of deze techniek doet wat het beoogd te doen, en dat het mensenrechten respecteerd.

    Ik zal ook eerder zorgen hebben dat deze techniek te goed werkt, dan dat het allemaal slangenolie is. Handhavers en criminelen worden beiden gesterkt door technologie voortgang, en daar moet wel een balans blijven (anders kun je iedereen wel voor iets beboeten, de wet tot op de letter volgen lukt alleen een AI systeem).

    1. “er is een wapen aangetroffen bij je vorige arrestatie,” die zie ik nog wel. Het algoritme slaat echter ook aan bij “jij was getuige van een overal waarbij de dader een wapen had” of “jij deed het appartementencomplex open waar in de garagebox een vuurwapen werd aangetroffen”. Dat zijn typisch van die fouten die er geheel te goeder trouw insluipen – er is een veld ‘betrokkene’ en ieders naam die we daar lezen, wordt in het scoresysteem ingevoerd als zijnde een gevaarlijk iemand. Dat een ander er ook de getuigen of aangevers bedoelde (ja, als slachtoffer van wapengeweld ben je óók verhoogd risico van wapens dragen), dat is niet jouw punt van zorg.

      1. Etniciteit mag volgens mij alleen een rol spelen bij risico-analyses voor medische zorg, beleidsvorming, nationale veiligheid, en dergelijke. Voor mijn part was daarom het systeem in 2017 compleet opgedoekt. Of de beslissingen op basis van zo’n model moeten meer gefocused worden op rehabilitatie, buurtzorg, en slachtofferhulp.

        Er is wel een gradatie met hoeveel zo’n beslissing impact heeft op burgers. Met gevangenverlof aan de ene kant, en een administratieve automatische check aan de andere kant. Een relatief hogere kans op fouilleren ligt dan een beetje in het midden.

        “jij was getuige van een overal waarbij de dader een wapen had” zou ik mij ook ongemakkelijk bij voelen als je wist waar het model voor gebruikt word. Het is niet een onzinnige variabele, maar waarschijnlijk voorspellend als proxy voor “afstand tot zware misdaad”: als je een paar keer beroofd bent door de lokale bende, kun je je maar goed aansluiten.

        “jij deed het appartementencomplex open waar in de garagebox een vuurwapen werd aangetroffen” is een effectieve variabele die bij zou kunnen dragen aan een complete, robuuste risico-analyse. Niet als doorgevende beslissing, maar in aggregatie. Palantir heeft daar meer geadvanceerde software voor, waarbij agent A op straat een vuurwapen vindt, en agent B dat automatisch kan koppelen aan een gang-shooting van de vorige nacht.

      2. Jij zegt: ‘het betreffende algoritme werkt niet goed, en bovendien is de kwaliteit van de invoerdata slecht.’

        Natuurlijk is dat een (dubbele) reden om dat algoritme niet te gebruiken, daar moeten we niet over discussieren.

        Maar het is geen goede reden om voorspellende algoritmes in het algemeen af te wijzen.

          1. Nee, dat klopt, dat doe je inderdaad niet.

            Ik heb ook sceptische gevoelens, maar in theorie moet het juist kunnen gaan. Waarom niet?

            De vraag is vooral: Hoeveel ongewenste neveneffecten (fouten/discriminatie) willen we accepteren om hoeveel positieve effecten te krijgen?

            Je kunt moeilijk zeggen: nul fouten en 0.00000% kans op discriminatie. Dat is onmogelijk en dan zullen we ook nooit van de positieve effecten kunnen genieten. Zoals Gregorius bovenstaand zegt ‘…de vraag blijft; hoe kan je op een conforme wijze gebruik maken van data over misdaad die beschikbaar is? Want het is natuurlijk ook niet zo dat historische informatie geen enkele waarde heeft.’

            Volgens mij is het eerder een politiek/maatschappelijke keuze. Je ontkomt er niet aan om ongewenste zij-effecten te hebben (die heb je nu ook met de ‘gezond verstand van de agent’ methode).

            1. Ik denk dat het probleem hem eerder zit in hoe correct en volledig die data is. Dat is op zich niet erg, die data is gewoon gegroeid vanuit een samenleving waarin allerlei factoren stuurden naar aanhoudingen waarbij bepaalde kenmerken meewogen of bepaalde groepen (zeg, zwervers) oververtegenwoordigd zijn. Maar wat ik dan zie gebeuren is dat die data ineens als heilig, volledig en 100% representatief aangemerkt wordt en dat daarmee ieder nieuw systeem hooguit op de nieuwe aspecten besproken mag worden.

              Verder zit je bij AI systemen met schaalgrootte – wat agenten elkaar leren vanuit hun praktijkervaring is één ding, een AI die meteen even 100.000 mensen fraudeur of oplichter noemt (in 5 minuten) iets heel anders. Daartegen verweren is een heel stuk lastiger. Mee speelt dan ook nog de factor “precisiebias”: de AI zegt dit met 92.936395947% betrouwbaarheid meneertje, en er zijn 16.384 factoren meegenomen dus ik weet niet wat uw advocaat hier nog van kan vinden.

              1. Ik heb al lang als stelregel dat data die in het verleden ’toevallig’ verzameld is niet veel waarde heeft: onvolledig en vaak onjuist, omdat de mensen toen ook al wisten dat het niet uitmaakte wat je invulde, en ze lui waren of een grap wilden maken (bij voorbeeld door Donald Duck in te vullen als zonder reden om een persoonsnaam gevraagd werd).

                Wat die oude data betreft ben ik het dus met je eens.

                Die schaalgrootte van AI heeft ook voordelen: de individuele agent maakt niet genoeg mee in zijn leven om betekenisvolle statistiek te doen, als hij zich alles al correct herinnert en genoteerd heeft.

                Die AI noemt ook niet iemand een oplichter, maar geeft een score. Iemand die dat ongefilterd gebruikt (en zeker als ‘bewijs’) is gewoon incompetent. Dat kun je met training/opleiding er wel uitkrijgen, dus daar ben ik niet zo bang voor.

                Die AI zou bijvoorbeeld een ‘kans op crimineel’ score kunnen geven en een ‘kans op vals-positief’ score. En dan kan een verstandige mens kiezen vanaf welke verhouding een nadere inspectie gewenst is.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.