Zweedse politie beboet voor gebruik gezichtsherkenning Clearview

De Zweedse politie heeft van de Zweedse privacytoezichthouder een boete van 250.000 euro opgelegd gekregen wegens het onrechtmatig gebruik van het gezichtsherkenningssysteem van het bedrijf Clearview AI. Dat meldde Security.nl onlangs. “De politie heeft onvoldoende organisatorische maatregelen ingevoerd om ervoor te zorgen dat het verwerken van persoonlijke data in dit geval volgens de wet plaatsvond”, aldus de Integritetsskyddsmyndigheten (IMY). Zo ontbrak een DPIA. Maar, zo lees ik op diverse plekken, wat is nu het probleem want de politie gebruikt dit toch alleen als hulpmiddel voor eerste leads?

De database van Clearview is opgebouwd door het scrapen van zo ongeveer alle social media sites, van Facebook tot Instagram en Venmo. En omdat die allemaal een Real Name Policy hebben, heb je een handige herkenningstool. Overheden leken de aantrekkelijkste doelgroep voor de dienst, dus daar is men heen gepivot en daarom lezen we nu dat er al tientallen zaken zijn opgelost van het soort waarvan je denkt “als ze nou toch de foto eens door Facebook heen konden halen dan hadden ze ‘m zo, de naarling”.

Nou ja, zoals ik vorig jaar zei:

[V]an bronnen blijf je af tenzij je kunt bewijzen dat je erin mag en dat je mag doen wat je van plan bent. En dat gaat natuurlijk hartstikke mis: die gegevens staan daar niet zodat Clearview er een matching tool mee kan maken maar omdat mensen zichzelf op social media willen presenteren. Dat is dus een doelbindingsprobleem, in het jargon. Ook gaat het mis met de informatieplicht: Clearview vertelt niemand dat hun foto in hun bestand verwerkt wordt en dat er matches zijn gedaan door politiediensten of andere snuffelaars. Dat is onderdeel van de transparantie die de AVG eist.
Dit zijn natuurlijk fundamentele bezwaren, maar ze zijn ook vrij abstract. En dat is lastig want het tegenargument is natuurlijk, als het de politie helpt een lead te vinden dan is dat toch mooi? Wat Clearview doet, is immers ‘gewoon’ dertig matches geven van mensen die lijken op de verdachte, met naam en Facebookprofiel er bij. Die namen trek je dan alsnog zelf door de politiesystemen. Hoe is dat anders dan een buurtonderzoek waarbij iemand zei dat zhij Wim ten Brink had gezien op de plaats delict?

Nou ja, dat is anders omdat je bij buurtonderzoek als agent zelf filtert. Je vraagt het aan mensen uit de buurt, je weet dat wat je binnenkrijgt een tip is zonder onderbouwing en je gaat dat zelf combineren met andere informatie. Dat in tegenstelling tot Clearview, dat pretendeert ‘echte’ matches te geven en daarmee hoge betrouwbaarheid suggereert.

Ook is het met zulke systemen mogelijk dat een vals positief wordt gegeven, waar je dan geen indicatie van hebt. Want die persoon lijkt wel natuurlijk, dus die moeten we het toch maar eens even gaan vragen. En dan krijg je een bekende valkuil, namelijk dat als je iemand als mogelijke verdachte benadert, je eerder bevestiging ziet van dat beeld.

Dit nog los van het feit dat Clearview zelf ook weer met de informatie aan de slag gaat – en hoezo mag een privaat bedrijf weten welke personen de politie zoekt?

Arnoud

Camera’s Britse politie herkenden duizenden mensen onterecht als crimineel

De politie van Wales zette tijdens de Champions League-finale van 2017 in Cardiff technologie met gezichtsherkenning in om criminelen op te sporen, maar het systeem zat in 92 procent van de gevallen fout. Dat meldde Nu.nl onlangs. De technologie scande van 170.000 mensen het gezicht en vond daarbij 2.470 potentiële gelijkenissen tussen bezoekers en bekende criminelen, maar 2.297 van die gelijkenissen was ten onrechte. Er zou geen enkele persoon zijn gearresteerd na foutief herkend te zijn door het systeem, en dus is het no big deal aldus de politie. Als dat de toekomst wordt van handhavingstech dan belooft het interessante tijden te worden.

Natuurlijk is geen enkel systeem perfect. Mensen kunnen zich vergissen, en computers kunnen fouten maken. Het is dan ook onrealistisch om te verwachten dat systemen altijd de juiste uitvoer leveren. En zeker als (zoals hier) de inputbeelden van slechte kwaliteit zijn, dan moet je niet te veel verwachten.

Er zijn diverse maten voor de kwaliteit van dit soort systemen. Allemaal komen ze neer op een conclusie afgaande op twee factoren:

  • Vals positief: een uitkomst wordt als positief (juist) aangemerkt, maar is eigenlijk negatief (onjuist). Bij deze gezichtsherkenning dus dat iemand wordt aangemerkt als voetbalcrimineel, terwijl hij dat niet is.
  • Vals negatief: een uitkomst wordt als negatief (onjuist) aangemerkt, maar is eigenlijk positief (juist). Hier dus dat een voetbalcrimineel wordt overgeslagen en gewoon naar binnen kan.

Beide onjuiste uitkomsten zijn onwenselijk, maar om verschillende redenen. Een vals positief zorgt ervoor dat je meer energie in iemand steekt dan nodig is: je gaat iemand langer opsluiten of intensiever begeleiden om recidive te voorkomen terwijl dat helemaal niet speelt. En een vals negatief kost je meer achteraf, je hebt immers een nieuw misdrijf van die recidivist en dat had je nu net willen voorkomen.

De belangrijkste hier van afgeleide factoren zijn precisie en vangst (‘recall’). De precisie is het percentage juiste uitkomsten ten opzichte van het totaal aantal uitkomsten, en de vangst is het percentage gevonden matches ten opzichte van het totaal aantal mogelijke matches. Als je dus tien voetbalcriminelen correct herkent, heb je een precisie van 100% maar als er tienduizend criminelen rondliepen dan is je vangst dus behoorlijk slecht. Vang je alle tienduizend criminelen door iederéén (170.000 bezoekers) als crimineel aan te merken, dan is je vangst 100% maar je precisie slechts 5,9%.

Het liefst heb je natuurlijk dat je alle tienduizend criminelen correct herkent en verder niemand fout herkent (vals positief). Maar het probleem is dat wanneer je het aantal matches (je vangst) verhoogt, je precisie vaak omlaag gaat. Wat je meestal namelijk doet, is de matching criteria omlaag doen en dus eerder tot een match besluiten. Dat is bij het detecteren van rot fruit in je magazijn tot daar aan toe, maar bij juridische systemen is het niet gepast dat je mensen onterecht als verdachte aanmerkt.

Een manier om dat te voorkomen, is door er een mens tussen te zetten. Je laat het systeem dan snel matchen en je accepteert dat een mens vervolgens veel van de uitkomsten weggooit als vals positief. Dat is beter dan een mens laten kijken, want de computer kan veel sneller die groep van 170.000 mensen doorscannen en een mens kan snel vals positieven elimineren. Een risico is wel dat de mens erg skeptisch wordt over het systeem – als je 92% van de alerts weg moet klikken als niet relevant, dan krijg je een reflex om élke alert weg te klikken.

Er waren dus geen personen ten onrechte gearresteerd, maar ik ben dan heel benieuwd of dat daaraan ligt.

Arnoud

AI net zo goed als willekeurige mensen in het voorspellen van recidive

AI-software blijkt net zo goed als een groep willekeurige mensen in het voorspellen van recidive bij Amerikaanse veroordeelden, las ik bij Ars Technica. Onderzoekers van Dartmouth College vergeleken de uitkomsten van de COMPAS software (die met machine learning technieken recidive probeert te voorspellen) met de inschatting van willekeurige mensen geworven via Amazon’s Mechanical Turk. Beiden bleken ongeveer even accuraat (65 en 62% respectievelijk), opmerkelijk genoeg inclusief de vooringenomenheid die eerder bij de software tot controverse leidde.

De COMPAS software (Correctional Offender Management Profiling for Alternative Sanctions) berekent op basis van een hele berg factoren de kans dat een bepaald persoon in recidive zou vervallen. Deze uitkomst wordt in Californië meegenomen in het besluit welke straf aan een veroordeelde op te leggen. In 2016 bleek uit onderzoek dat de software enige bias oftewel vooringenomenheid vertoonde, namelijk dat gekleurde mensen vaker ten onrechte als recidivist werden gesignaleerd en witte juist vaker ten onrechte als géén recidivist.

Accuratesse in AI en machine learning is een heel lastig onderwerp. Wat betekent het dat je software 94,1% nauwkeurig is (de huidige score van mijn NDA Lynn geheimhoudingscontractenanalyserobot)? Meestal wordt ermee bedoeld dat in 94,1% van de gevallen de uitkomst van de AI gelijk is aan de verwachte of correcte uitkomst. En 5,9% van de gevallen is dus onjuist. Maar dat kan twee kanten op:

  1. Vals positief: een uitkomst wordt als positief (juist) aangemerkt, maar is eigenlijk negatief (onjuist). Bij de COMPAS software dus dat iemand recidivist zou zijn terwijl hij dat niet is.
  2. Vals negatief: een uitkomst wordt als negatief (onjuist) aangemerkt, maar is eigenlijk positief (juist). Bij COMPAS dus dat iemand recidive pleegt terwijl de software voorspelde dat hij dat niet zou doen.

Beide onjuiste uitkomsten zijn onwenselijk, maar om verschillende redenen. Een vals positief zorgt ervoor dat je meer energie in iemand steekt dan nodig is: je gaat iemand langer opsluiten of intensiever begeleiden om recidive te voorkomen terwijl dat helemaal niet speelt. En een vals negatief kost je meer achteraf, je hebt immers een nieuw misdrijf van die recidivist en dat had je nu net willen voorkomen.

Het is niet goed mogelijk beiden tegelijk te minimaliseren. Vaak zie je dat wanneer je de één in aantallen terugdringt, de ander groter wordt. Je kunt bijvoorbeeld eerder concluderen dat mensen recidive zullen plegen, waardoor je de vals negatieven vermindert. Er worden immers minder mensen vrijgelaten die recidivist blijken. Maar je hebt nu wel meer mensen ten onrechte als recidivist aangemerkt. En omgekeerd zou precies hetzelfde gebeuren, als je strenger bent in je beoordeling zul je minder mensen ten onrechte als recidivist aanmerken, maar daardoor ook eerder recidivisten laten gaan.

De kritiek op de COMPAS software richtte zich natuurlijk op de bias die de valse uitkomsten zou baseren op etnische afkomst. De vergelijking met gewone mensen laat nu zien dat dit niet perse de oorzaak is. Deze kregen namelijk de gegevens zónder indicatie van etnische afkomst, en gaven grofweg dezelfde voorspelling over recidive. Inclusief een hogere vals positief bij gekleurde mensen en een hogere vals negatief bij witte mensen. Dat zou dan eerder de conclusie rechtvaardigen dat die software er ook maar een gooi naar doet. Geen bias dus maar ook geen inhoudelijke analyse.

Arnoud