Hoe zwaar weegt gezichtsherkenning in het strafrecht?

Het lijkt erop dat degene die op 5 augustus 2017 om 2.31 uur bij de geldautomaat is gefilmd, ook in de politiedatabase staat: Thomas. Zo introduceert Nu.nl een strafzaak waarin gezichtsherkenning door het politiesysteem CATCH centraal stond in het bewijs. Nadat ook twee onderzoekers de gezichten met elkaar vergelijken, concludeert het Centrum voor Biometrie namelijk dat Thomas veel overeenkomsten en geen significante verschillen vertoont met de persoon die om half drie ’s nachts pint. Hebbes, zegt de statistiek. Nope, zegt de rechtbank Den Bosch.

De strafzaak (vonnis) gaat over een hele trits feiten, niet alleen een keer pinnen met andermans pinpas, maar ook witwassen en lidmaatschap van een criminele organisatie. De rechtszaak is namelijk onderdeel van een groter onderzoek naar een bende die bankrekeningen plundert. En kennelijk is ‘Thomas’ (de naam is nep) de leider van dat netwerk want hij heeft statistisch gezien gepind met een gestolen pas?

Herkennen van mensen van foto’s is natuurlijk altijd lastig. Maar hier werd niet door menselijke getuigen of rechercheurs gekeken; het gaat om een automatisch gezichtsherkenningssysteem dat CATCH heet. De cijfers zijn schokkend: jaarlijks gaan zo’n duizend foto’s van verdachten door de database met 1.3 miljoen mensen. En dat levert dan 98 keer een match op. Nee, niet 980 of 98%, acht-en-negentig. Net geen honderd. Ja, ik val ook van mijn stoel.

Waarschijnlijk komt dat lage aantal omdat de meeste beveiligingscamera’s de kwaliteit van een aardappel hebben, als ik de beelden van Opsporing Verzocht mag geloven. Plus, veel criminelen weten natuurlijk dat ze hun gezicht moeten bedekken om niet te makkelijk herkend te worden. En men zal vast ook alleen een match willen geven als het systeem het heel zeker weet.

Maar hoe zeker is zeker? Dat weten we niet, en dat is ook fundamenteel lastig. Al is het maar vanwege de vraag of de werkelijke dader wel in het systeem zit. Anders krijg je gewoon “de best matchende persoon is deze” en als dat ook een hoog percentage betrouwbaarheid geeft, dan is de conclusie “dit is hem” snel gelegd. Natuurlijk kijken er dan nog mensen naar, maar “even checken, dit is hem toch” is heel wat anders dan “hier zijn duizend gezichten, welke is het”.

De rechtbank is er dan ook héél snel klaar mee:

De rechtbank is van oordeel dat in dit geval de ‘hit’ op verdachte in het zgn. CATCH-systeem (Centrale Automatische Technologie voor herkenning) onvoldoende is om te concluderen dat verdachte – buiten redelijke twijfel – als pinner kan worden aangemerkt. De opmerking dat twee onderzoekers zagen dat er veel overeenkomsten waren en geen significante afwijkingen, acht de rechtbank niet zodanig overtuigend dat de ‘hit’ als basis voor een bewezenverklaring kan dienen. Nu er buiten de herkenning geen andere bewijsmiddelen voorhanden zijn die verdachte verbinden aan een van de ten laste gelegde feiten, is de rechtbank van oordeel dat verdachte dient te worden vrijgesproken.

Bij een strafzaak moet het gaan om wettig en vooral overtuigend bewijs. Oftewel, geen redelijke twijfel. Enkel “hij lijkt best goed” is niet hetzelfde als “er is geen twijfel dat dit hem is”. Tussen de regels door lees ik dat de rechtbank alléén een fotoherkenning te weinig vindt. Had zijn telefoon even uitgepeild, een vingerafdruk genomen of iets anders dat hem op de plaats delict zet. Maar dit is echt te weinig.

Arnoud

17 reacties

  1. 980 mensen is 98%. En ik zou niet weten waarom je zo een hoog getal verwacht.

    Want met maar 1,3 miljoen mensen, heb je 7,5% van de bevolking in de database.

    En dan is 98 mensen op de duizend (=9,8%) al behoorlijk hoog.

    Zo hoog dat ik ook bang ben voor false positives.

    1. De 1.3 miljoen mensen in de database zijn geen random trekking uit de Nederlandse bevolking:

      De 1,3 miljoen mensen van wie er afbeeldingen in de database staan, betreffen veroordeelden en verdachten van een feit waar een strafdreiging van 4 jaar of meer voor staat, bevestigt politiewoordvoerder Ed Kraszewski [Tweakers]
      Gezien het gebruikelijke patroon van recidive is de kans dus best hoog dat je verdachte al in de database zit, en is die kans waarschijnlijk een stuk hoger dan de bijna 10% matches waar het systeem uiteindelijk mee aan komt.

    2. Een mooi voorbeeld is de DNA database in de VS. Die stoppen al jaren het DNA van ieder veroordeelde crimineel in de database. Aangezien je in de VS al crimineel bent als je in het openbaar een scheet laat hadden we het in 2016 al over 16 miljoen entries (minder dan 500.000 in 2000!).

      De kans op een false positive bij twee willekeurige DNA samples is erg klein, maar als je 1 willekeurig DNA sample probeert te matchen met 16 miljoen samples is de kans op een toevallige match 16 miljoen keer zo groot. Ik kan het artikel van een paar jaar terug niet meer vinden, maar ik weet dat de kans met de toenmalige technieken op een false positive uit de DNA database al groter dan 10% was. Alleen maar een DNA match op die database kan dus nooit een bewijs van schuld zijn. Je zal ook op een andere manier moeten aantonen dat de match gelinkt is aan de misdaad. Het levert je dus hoogstens een verdachte op.

      De gevolgen hiervan zijn groot. Een ander onderzoek in de VS vond bij 90% van de bestudeerde zaken ‘irregularities’ in de biometrische data (niet alleen DNA) die als bewijs was gebruikt. Terwijl juries daar een hele hoge waarde aan toekennen.

      En hier in Nederland hebben we natuurlijk te maken gehad met een prutser van een ‘expert’ getuige en rechters met nul verstand van statistiek die deze prutser blind geloofd hebben, met als gevolg dat Lucia de Berk onschuldig in de gevangenis zat. Het droevige van die zaak was dat en de statistiek die gebruikt werd om uberhaupt aan te tonen dat er iets strafbaar zou zijn gebeurd en de statistieken die gebruikt werden om aan te tonen dat Lucia de Berk de dader zou zijn geweest prutswerk waren. Zij is dus op verkeerde statistieken veroordeeld voor een door verkeerde statistieken aangenomen maar feitelijk niet bestaand misdrijf.

      Ik kan alleen maar toejuichen dat de rechter(s) in deze zaak zich wel bewust waren van de mogelijkheden en met name de onmogelijkheden van statistiek als bewijs.

      1. Dit is vast een naïeve vraag, maar waarom is de kans op een willekeurige match 16 miljoen keer zo groot als je een database van 16 miljoen samples hebt? Groter snap ik maar waarom precies de omvang van de database?

        Weegt hier nog mee dat deze systemen gemaakt zijn om een match te vinden, en dat “niet gevonden” eigenlijk niet bestaat?

        1. Een heel goede vraag aangezien ik ernaast zat. Ik was zelf gevallen voor de uniqueness fallacy en schaam me diep!

          Als we aan nemen dat p de kans op een false positive is als we het DNA matchen met dat van de verdachte en de vergelijkingen onafhankelijk zijn (niet helemaal waar tweelingen in de database e.d.) dan is het aantal false positives dus binomiaal verdeeld. De makkelijkste kans bij 16 miljoen tests is de kans op 1 of meer false positives: 1 – (1-p)^16m.

          Dat leidt tot het volgende overzicht voor verschillende p:

          p = 1 / 1.000.000 -> ~100% kans op false positive. p = 1/10.000.000 -> ~ 79,8% kans op false positive p = 1/100.000.000 -> ~14,8% kans op false positive p = 1/1.000.000.000 -> ~1,6% kans op false positive p= 1/ 280.000.000.000 -> ~ 0,01% kans op een false positive

          Die laatste is interessant omdat dat de geschatte kans is dat er een willekeurige DNA match optreedt bij gangbare tests die voor strafrechtelijk onderzoek wordt gebruikt. Nauwkeurigere tests achteraf zijn tegenwoordig goed mogelijk.

          Prima bewijs zou je dus zeggen met zo’n lage kans op een false positive. Echter … dit is de geschatte voorwaardelijke kans dat er geen fouten in het lab worden gemaakt en geen vervuiling van het DNA op zijn getreden. Als je een zuiver DNA vergelijkt met een mixture van DNA is de kans op een false positive 1 / 790.000, oftewel 2% kans op een false positive! In de Sutton zaak bleek dat de kans op een false positive door mixed DNA 1 / 690.000 was. (De kans op een match was in die zaak 1/15, maar dat werd niet zo gepresenteerd in de zaak en bleek pas achteraf, de man werd veroordeeld en zat in de gevangenis. Hij kwam pas vrij toen een andere crimineel matchte en de verkrachting bekende!)

          Een voorbeeld uit het VK:

          The British Home Office has reported that between 2001 and 2006, 27.6 percent of the matches reported from searches of the United Kingdom’s National DNA Database were to more than one person in the database.
          (bron helaas achter een paywall, dus kan ik niet delen)

          Uit onderzoek blijkt dat de kans van besmetting van de samples (zowel van de verdachte als de samples in de database) aanzienlijk te zijn. Bijvoorbeeld door DNA van de lab medewerkers, waardoor je resultaten richting die voor mix dna gaan. Alle mogelijke besmettingsbronnen verhogen dus de onzekerheid.

          Los van dit database probleem is er nog een veel groter probleem met besmette samples: er zijn verschillende voorbeelden waar een sample van de plaats delict besmet is met een sample van de verdachte! Je krijgt dan met levensgrote kans een match, terwijl deze niet terecht is.

          Tenslotte nog een opmerking: De US heeft 328miljoen inwoners, stel dat ze een nationale databank aanleggen (en we dezelfde kansen op false positives veronderstellen, wat onwaarschijnliljk is omdat je nu hele families in de databas ehebt zitten met grote overeenkomsten in DNA).

          Bij p = 1 / 1.000.000.000 en 328m onafhankelijke vergelijkingen is de kans op een false positive ~27,9% Bij p = 1 / 1.000.000.000 en 32m (verdubbeling database bijvoorbeeld door minderenstige vergrijpen ook op te nemen) onafhankelijke vergelijkingen is de kans op een false positive ~3,1%.

          Hoe groter de database hoe minder een match zegt! De match allen kan dus geen bewijs zijn, maar hoogstens een onderzoeksrichting aangeven.

        2. Stel je doet een test, bijvoorbeeld een match, waarvan de uitkomst is ‘wel een match’, of ‘geen match’. Stel dat voor 1 test de foutkans p is (die heel klein is). Ofwel, de kans dat je het goede antwoord krijgt is (1-p). Als je nu N tests (bijvoorbeeld 1 DNA sample testen tegen N andere) doet is de kans dat je alleen maar goede antwoorden krijgt (1-p)^N en de kans dat je minstens één fout antwoord krijgt dus (1 – (1-p)^N). Ervan uitgaande dat Np veel kleiner dan 1 is mag je benaderen dat (1-p)^N ongeveer gelijk is aan (1-Np) en de kans op minstens één fout bij N tests is dan dus Np. Dat is het effect wat Elroy beschrijft, maar met beperkte numerieke geldigheid. Je ziet hier ook uit dat als je in een volledig geautomatiseerd systeem false positives wilt vermijden, de foutkans p van je test veel kleiner moet zijn dan 1/N. Omdat bij dit soort grote aantallen (N=1.3 miljoen) een false positive dus eigenlijk gegarandeerd is zou het systeem nooit 1 match als output mogen geven, maar een lijst van bijvoorbeeld 50 beste matches en je daar dan tussen kan kijken of zhij er echt tussen zit.

          Volgens mij heb ik tocht echt zeker 10 minuten na het antwoord van Elroy met Ctrl-F5 de site opnieuw geladen en daarna mijn antwoord geschreven, maar de cache zat blijkbaar toch in de weg…

          1. Haha, je hebt helemaal gelijk over de benadering. Maar ik ben gewoon eerlijk en geef toe dat ik te kort door de bocht heb geantwoord en een klassieke fout heb gemaakt en niet aan een benadering dacht. 😉

        3. De kans is niet exact 16 miljoen keer zo groot, anders zou je bij een grote database een kans groter dan 1 krijgen. Als twee willekeurige DNA samples matchen met kans p, dan is de kans dat één willekeurig DNA sample matcht met tenminste één DNA sample uit een database met n willekeurige samples gelijk aan 1-(1-p)^n. Als p heel erg klein is, dan is 1-(1-p)^n ongeveer gelijk aan np (als p ? 10^(-9) dan wordt de kans ongeveer 16 miljoen keer zo groot). De benadering volgt uit de binomiaalreeks met x=p en alpha=n, waarbij alle termen met x^2, x^3, enz, verwaarloosbaar klein zijn.

    3. Moet je dat niet corrigeren met het feit dat een groot gedeelte van de mensen in die database een strafblad heeft, en dat de input over het algemeen ook bestaat uit mensen met een strafblad? Dit zijn natuurlijk aannames, maar de meeste criminaliteit wordt geloof ik gepleegd door veelplegers, die verhoudingswijze vaker in die database aanwezig zijn.

      Ik denk daarom dat je er met zo’n simpel rekensommetje nog niet bent.

      1. De databases kan je op twee manieren vullen, met fotos van onbekenden verkregen bij misdrijven. Daar zou een persoon meerdere keren in voor kunnen komen omdat er onterecht geen match is gemaakt. Deze database kan je gebruiken als je iemand oppakt voor iets anders en wil kijken of hij meer op zijn kerfstok heeft.

        Een andere database is die van politie foto’s van verdachten/veroordeelden die geidentificeerd zijn en als het goied is dus maar 1 keer voorkomen in de database. Hier kan je een camera beeld van een misdrijf tegenaanhouden om te kijken of je de dader wellicht al kent. Je wil de twee niet mixen en in dit geval gaat het om zo’n laatste database, dus personen zijn uniek.

      2. Het was niet mijn doel te berekenen hoeveel hits of false positives er uit horen te komen. Er is ook geen rekensom van mij uit. Ik wilde enkel zeggen dat ik 98 van de duizend niet schokkend laag vond. En dat ik het zelfs zo veel vind, dat ik bang ben dat er false positives tussen zouden kunnen zitten.

        Als ik een berekening zou willen maken, zou ik dat aan een deskundiger persoon overlaten. Want ik heb geen flauw idee hoeveel recidive er is. En hoevaak iemand voor het eerst wordt opgepakt. En hoevaak recidiven slimmer zijn om hun gezicht te bedekken. En hoe goed het beeld is. En hoe vaak een algo een fout maakt. En of de algo net zo goed werkt met een donkere huidskleur. Om maar een paar dingen te noemen. Misschien dat als je een Chinees opvoert, het wel met 10 zeker-weten matches aanzet, ‘want ze lijken allemaal op elkaar’.

  2. Maar ze zullen het systeem + database toch wel getest hebben? Neem 1000 mensen waarvan je zeker weet dat ze er wel in staan en 1000 mensen waarvan je zeker weet dat ze er niet in staan, maak van iedereen een nieuwe foto met lage resolutie en gooi ze door het systeem, kijken wat er gebeurt. Dan heb je empirische informatie over de betrouwbaarheid van het systeem. Ik kan daar niets over in het vonnis vinden, dus óf ze hebben dat niet gedaan, óf de resultaten waren niet goed genoeg? Mag je als rechter vragen om de resultaten van zo’n onderzoek?

    1. Niet, lang niet, genoeg om “overtuigend bewijs” te kunnen zijn. Er zit een groot verschil tussen “Computer, controleer of het gezicht uit de database hetzelfde is als het gezicht van verdachte X die ik heb opgepakt op basis van ander bewijs” en “Computer, ik heb hier een korrelige foto, zoek maar even iemand in de database die daar genoeg op lijkt, dan gaan we die oppakken”.

      1. Klopt. Maar ik zou er ook niet van opkijken als blijkt dat de computer het veel beter doet, dan een echte getuige. Die kan ook fouten maken. Maar toch wordt aan zijn ‘constatering’ veel gewicht gegeven. In Amerikaanse films (ik weet niet of het in Nederland ook zo gaat), bladert een getuige door een dik boek met mugshots, tot hij huiviger roept ‘owmygod that’s him!!!1!’.

        Een beetje dezelfde discussie als zou jij een AI als dokter willen hebben?

    2. Een Nederlandse strafrechter is volgens mij niet zó actief dat hij zelf rapporten gaat opvragen of de precisie/recall van een matching systeem gaat vragen. Ik denk dat het wel kan, mits natuurlijk beide partijen vervolgens mogen reageren op het rapport en wat de rechter daaruit haalt. Je mag geen verrassingen in je vonnis hebben.

      Mogelijk dat deze rechter vond dat zo’n rapport er gewoon meteen moet zijn, dus geen rapport meegeleverd betekent dat er niet getest is op kwaliteit. En dan zou ik ook chagrijnig worden.

  3. Gaat het in deze zaak nu echt wel om het CATCH systeem? Heeft de politie dus enkel e output van dit systeem gebruikt zonder zelf de foto’s nog even naast elkaar te leggen? Dat zou ik een erg rare gang van zaken vinden (en terecht dat een rechter dat niet pikt).

    Of is het enkel dat dit systeem als hulpmiddel gebruikt kan worden om die 1.3 miljoen foto’s te reduceren tot een korte lijst van mogelijke matches welke dan handmatig bekeken worden door de politie? En dat de rechter deze handmatige matching afkeurt omdat de gelijkenis niet goed genoeg is? Dat dus bij een volledige handmatige actie (alle 1.3 miljoen foto’s doorlopen met een grote groep personeel) hetzelfde antwoord uit het onderzoek gerold was en deze bewijsvoering ook te licht zou zijn bevonden…

    1. Dat lijkt mij wel ja, dat ze alleen op basis van CATCH hebben gezegd “oppakken die man”. Want het systeem zegt dat hij het is. Ik vind het héél moeilijk precies in woorden te vatten wat de redeneerfout is, maar het klopt niet, dat staat voor me vast.

      Geen agent gaat natuurlijk 1.3 miljoen foto’s vergelijken. Je raadpleegt andere bronnen (zoals GSM-data of bekenden van het slachtoffer die mogelijk de pinpas konden pakken) en filtert zo naar waarschijnlijke verdachten. Vanaf daar ga je misschien eens met foto’s vergelijken. Als Wim de bewuste avond van de diefstal alleen thuis was bij slachtoffer en de pinpas lag op tafel, én Wim was volgens de GSM vlakbij de pinautomaat op het moment van betalen én Wim lijkt op de vier pixels van de beveiligingscamera dan is Wim wel een verdachte. Maar alleen dat laatste lijkt mij echt te weinig.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.