Camera’s Britse politie herkenden duizenden mensen onterecht als crimineel

| AE 10573 | Privacy | 21 reacties

De politie van Wales zette tijdens de Champions League-finale van 2017 in Cardiff technologie met gezichtsherkenning in om criminelen op te sporen, maar het systeem zat in 92 procent van de gevallen fout. Dat meldde Nu.nl onlangs. De technologie scande van 170.000 mensen het gezicht en vond daarbij 2.470 potentiële gelijkenissen tussen bezoekers en bekende criminelen, maar 2.297 van die gelijkenissen was ten onrechte. Er zou geen enkele persoon zijn gearresteerd na foutief herkend te zijn door het systeem, en dus is het no big deal aldus de politie. Als dat de toekomst wordt van handhavingstech dan belooft het interessante tijden te worden.

Natuurlijk is geen enkel systeem perfect. Mensen kunnen zich vergissen, en computers kunnen fouten maken. Het is dan ook onrealistisch om te verwachten dat systemen altijd de juiste uitvoer leveren. En zeker als (zoals hier) de inputbeelden van slechte kwaliteit zijn, dan moet je niet te veel verwachten.

Er zijn diverse maten voor de kwaliteit van dit soort systemen. Allemaal komen ze neer op een conclusie afgaande op twee factoren:

  • Vals positief: een uitkomst wordt als positief (juist) aangemerkt, maar is eigenlijk negatief (onjuist). Bij deze gezichtsherkenning dus dat iemand wordt aangemerkt als voetbalcrimineel, terwijl hij dat niet is.
  • Vals negatief: een uitkomst wordt als negatief (onjuist) aangemerkt, maar is eigenlijk positief (juist). Hier dus dat een voetbalcrimineel wordt overgeslagen en gewoon naar binnen kan.

Beide onjuiste uitkomsten zijn onwenselijk, maar om verschillende redenen. Een vals positief zorgt ervoor dat je meer energie in iemand steekt dan nodig is: je gaat iemand langer opsluiten of intensiever begeleiden om recidive te voorkomen terwijl dat helemaal niet speelt. En een vals negatief kost je meer achteraf, je hebt immers een nieuw misdrijf van die recidivist en dat had je nu net willen voorkomen.

De belangrijkste hier van afgeleide factoren zijn precisie en vangst (‘recall’). De precisie is het percentage juiste uitkomsten ten opzichte van het totaal aantal uitkomsten, en de vangst is het percentage gevonden matches ten opzichte van het totaal aantal mogelijke matches. Als je dus tien voetbalcriminelen correct herkent, heb je een precisie van 100% maar als er tienduizend criminelen rondliepen dan is je vangst dus behoorlijk slecht. Vang je alle tienduizend criminelen door iederéén (170.000 bezoekers) als crimineel aan te merken, dan is je vangst 100% maar je precisie slechts 5,9%.

Het liefst heb je natuurlijk dat je alle tienduizend criminelen correct herkent en verder niemand fout herkent (vals positief). Maar het probleem is dat wanneer je het aantal matches (je vangst) verhoogt, je precisie vaak omlaag gaat. Wat je meestal namelijk doet, is de matching criteria omlaag doen en dus eerder tot een match besluiten. Dat is bij het detecteren van rot fruit in je magazijn tot daar aan toe, maar bij juridische systemen is het niet gepast dat je mensen onterecht als verdachte aanmerkt.

Een manier om dat te voorkomen, is door er een mens tussen te zetten. Je laat het systeem dan snel matchen en je accepteert dat een mens vervolgens veel van de uitkomsten weggooit als vals positief. Dat is beter dan een mens laten kijken, want de computer kan veel sneller die groep van 170.000 mensen doorscannen en een mens kan snel vals positieven elimineren. Een risico is wel dat de mens erg skeptisch wordt over het systeem – als je 92% van de alerts weg moet klikken als niet relevant, dan krijg je een reflex om élke alert weg te klikken.

Er waren dus geen personen ten onrechte gearresteerd, maar ik ben dan heel benieuwd of dat daaraan ligt.

Arnoud

AI net zo goed als willekeurige mensen in het voorspellen van recidive

| AE 10360 | Innovatie | 22 reacties

AI-software blijkt net zo goed als een groep willekeurige mensen in het voorspellen van recidive bij Amerikaanse veroordeelden, las ik bij Ars Technica. Onderzoekers van Dartmouth College vergeleken de uitkomsten van de COMPAS software (die met machine learning technieken recidive probeert te voorspellen) met de inschatting van willekeurige mensen geworven via Amazon’s Mechanical Turk. Beiden bleken ongeveer even accuraat (65 en 62% respectievelijk), opmerkelijk genoeg inclusief de vooringenomenheid die eerder bij de software tot controverse leidde.

De COMPAS software (Correctional Offender Management Profiling for Alternative Sanctions) berekent op basis van een hele berg factoren de kans dat een bepaald persoon in recidive zou vervallen. Deze uitkomst wordt in Californië meegenomen in het besluit welke straf aan een veroordeelde op te leggen. In 2016 bleek uit onderzoek dat de software enige bias oftewel vooringenomenheid vertoonde, namelijk dat gekleurde mensen vaker ten onrechte als recidivist werden gesignaleerd en witte juist vaker ten onrechte als géén recidivist.

Accuratesse in AI en machine learning is een heel lastig onderwerp. Wat betekent het dat je software 94,1% nauwkeurig is (de huidige score van mijn NDA Lynn geheimhoudingscontractenanalyserobot)? Meestal wordt ermee bedoeld dat in 94,1% van de gevallen de uitkomst van de AI gelijk is aan de verwachte of correcte uitkomst. En 5,9% van de gevallen is dus onjuist. Maar dat kan twee kanten op:

  1. Vals positief: een uitkomst wordt als positief (juist) aangemerkt, maar is eigenlijk negatief (onjuist). Bij de COMPAS software dus dat iemand recidivist zou zijn terwijl hij dat niet is.
  2. Vals negatief: een uitkomst wordt als negatief (onjuist) aangemerkt, maar is eigenlijk positief (juist). Bij COMPAS dus dat iemand recidive pleegt terwijl de software voorspelde dat hij dat niet zou doen.

Beide onjuiste uitkomsten zijn onwenselijk, maar om verschillende redenen. Een vals positief zorgt ervoor dat je meer energie in iemand steekt dan nodig is: je gaat iemand langer opsluiten of intensiever begeleiden om recidive te voorkomen terwijl dat helemaal niet speelt. En een vals negatief kost je meer achteraf, je hebt immers een nieuw misdrijf van die recidivist en dat had je nu net willen voorkomen.

Het is niet goed mogelijk beiden tegelijk te minimaliseren. Vaak zie je dat wanneer je de één in aantallen terugdringt, de ander groter wordt. Je kunt bijvoorbeeld eerder concluderen dat mensen recidive zullen plegen, waardoor je de vals negatieven vermindert. Er worden immers minder mensen vrijgelaten die recidivist blijken. Maar je hebt nu wel meer mensen ten onrechte als recidivist aangemerkt. En omgekeerd zou precies hetzelfde gebeuren, als je strenger bent in je beoordeling zul je minder mensen ten onrechte als recidivist aanmerken, maar daardoor ook eerder recidivisten laten gaan.

De kritiek op de COMPAS software richtte zich natuurlijk op de bias die de valse uitkomsten zou baseren op etnische afkomst. De vergelijking met gewone mensen laat nu zien dat dit niet perse de oorzaak is. Deze kregen namelijk de gegevens zónder indicatie van etnische afkomst, en gaven grofweg dezelfde voorspelling over recidive. Inclusief een hogere vals positief bij gekleurde mensen en een hogere vals negatief bij witte mensen. Dat zou dan eerder de conclusie rechtvaardigen dat die software er ook maar een gooi naar doet. Geen bias dus maar ook geen inhoudelijke analyse.

Arnoud