AI net zo goed als willekeurige mensen in het voorspellen van recidive

AI-software blijkt net zo goed als een groep willekeurige mensen in het voorspellen van recidive bij Amerikaanse veroordeelden, las ik bij Ars Technica. Onderzoekers van Dartmouth College vergeleken de uitkomsten van de COMPAS software (die met machine learning technieken recidive probeert te voorspellen) met de inschatting van willekeurige mensen geworven via Amazon’s Mechanical Turk. Beiden bleken ongeveer even accuraat (65 en 62% respectievelijk), opmerkelijk genoeg inclusief de vooringenomenheid die eerder bij de software tot controverse leidde.

De COMPAS software (Correctional Offender Management Profiling for Alternative Sanctions) berekent op basis van een hele berg factoren de kans dat een bepaald persoon in recidive zou vervallen. Deze uitkomst wordt in Californië meegenomen in het besluit welke straf aan een veroordeelde op te leggen. In 2016 bleek uit onderzoek dat de software enige bias oftewel vooringenomenheid vertoonde, namelijk dat gekleurde mensen vaker ten onrechte als recidivist werden gesignaleerd en witte juist vaker ten onrechte als géén recidivist.

Accuratesse in AI en machine learning is een heel lastig onderwerp. Wat betekent het dat je software 94,1% nauwkeurig is (de huidige score van mijn NDA Lynn geheimhoudingscontractenanalyserobot)? Meestal wordt ermee bedoeld dat in 94,1% van de gevallen de uitkomst van de AI gelijk is aan de verwachte of correcte uitkomst. En 5,9% van de gevallen is dus onjuist. Maar dat kan twee kanten op:

  1. Vals positief: een uitkomst wordt als positief (juist) aangemerkt, maar is eigenlijk negatief (onjuist). Bij de COMPAS software dus dat iemand recidivist zou zijn terwijl hij dat niet is.
  2. Vals negatief: een uitkomst wordt als negatief (onjuist) aangemerkt, maar is eigenlijk positief (juist). Bij COMPAS dus dat iemand recidive pleegt terwijl de software voorspelde dat hij dat niet zou doen.

Beide onjuiste uitkomsten zijn onwenselijk, maar om verschillende redenen. Een vals positief zorgt ervoor dat je meer energie in iemand steekt dan nodig is: je gaat iemand langer opsluiten of intensiever begeleiden om recidive te voorkomen terwijl dat helemaal niet speelt. En een vals negatief kost je meer achteraf, je hebt immers een nieuw misdrijf van die recidivist en dat had je nu net willen voorkomen.

Het is niet goed mogelijk beiden tegelijk te minimaliseren. Vaak zie je dat wanneer je de één in aantallen terugdringt, de ander groter wordt. Je kunt bijvoorbeeld eerder concluderen dat mensen recidive zullen plegen, waardoor je de vals negatieven vermindert. Er worden immers minder mensen vrijgelaten die recidivist blijken. Maar je hebt nu wel meer mensen ten onrechte als recidivist aangemerkt. En omgekeerd zou precies hetzelfde gebeuren, als je strenger bent in je beoordeling zul je minder mensen ten onrechte als recidivist aanmerken, maar daardoor ook eerder recidivisten laten gaan.

De kritiek op de COMPAS software richtte zich natuurlijk op de bias die de valse uitkomsten zou baseren op etnische afkomst. De vergelijking met gewone mensen laat nu zien dat dit niet perse de oorzaak is. Deze kregen namelijk de gegevens zónder indicatie van etnische afkomst, en gaven grofweg dezelfde voorspelling over recidive. Inclusief een hogere vals positief bij gekleurde mensen en een hogere vals negatief bij witte mensen. Dat zou dan eerder de conclusie rechtvaardigen dat die software er ook maar een gooi naar doet. Geen bias dus maar ook geen inhoudelijke analyse.

Arnoud