EU test nepwetenschappelijke leugendetector bij grenscontroles

Wat bizar: in Griekenland, Hongarije en Letland begint een test van de Europese Unie met een leugendetector bij de grenscontrole, las ik bij Tweakers. Het iBorderCtrl-systeem analyseert ‘microgezichtsuitdrukkingen’ van reizigers om te controleren of ze de waarheid vertellen. Niet alleen is deze test gebaseerd op onderzoek waarbij slechts 32 vrijwilligers betrokken waren als proefpersonen, er is ook geen wetenschappelijke onderbouwing dat microexpressies überhaupt iets zeggen over leugenachtigheid. Maar ja, er zit een Artificial Intelligence in en uiteindelijk zegt het systeem alleen maar dat iemand verder moet worden gecontroleerd, dus niets aan de hand toch? Nou, dus wel.

In de kern komt het erop neer dat je als potentiële bezoeker online een aanvraag doet om de EU in te mogen. Je uploadt dan een foto van je paspoort en doet een intake met een virtuele douanebeambte in jouw taal, waarbij je wordt gefilmd met je eigen webcam. Software bij de douane analyseert die beelden (van 640×480 pixels bij 30 frames per seconde) op ‘microexpressies’, zeer kleine veranderingen in het gelaat die worden gekoppeld aan emotionele reacties. Een Machine Learning model (“een AI”) trekt daar statistische gegevens uit en legt deze langs een berg met proefpersoondata om zo te bepalen of je waarschijnlijk een leugenaar bent. Je komt dan in aanmerking voor extra controle.

Bedoeling van het systeem is natuurlijk om de douanebeambten aan de grens te ontlasten. Als een AI kan filteren op de verdachte personen, dan kan de douane daar haar aandacht op richten en de ‘gewone’ bezoekers doorlaten. Dat concept (dat ik eerder besprak) ondersteunt slechts de werkprocessen, en is daarmee juridisch geen probleem.

Het is ook niet verboden onder de AVG (die ook geldt bij grenscontroles, omdat hij geldt voor alle verwerkingen die in Europa gebeuren, en de dienst van het pre-screenen gebeurt in Europa). Weliswaar mag een computer geen besluiten nemen, maar een aanwijzing of iemand gecontroleerd moet worden, telt niet als besluitvorming in de zin van de AVG. Deze actie raakt je niet “in aanzienlijke mate”, zoals de wettelijke formulering is.

Inhoudelijk is dit natuurlijk behoorlijk problematisch. Natuurlijk is het geen robot die je bij de grens tegenhoudt. Er gaat een rood lampje branden bij de menselijke douanecontroleur, maar die moet vervolgens nog wel iets van bewijs te voorschijn krijgen. Alleen, in mijn ervaring is er altijd wel iets als je goed zoekt, in bureaucratische en voor gebruikers onbekende situaties. Zeker wanneer de controleur het onderzoek in gaat met “er is iets aan de hand”. Je krijgt dan een heel andere insteek van het gesprek en de doorzoeking dan bij een “Persoon geselecteerd voor willekeurige controle”. Dat vind ik ernstig.

In het paper van het onderzoek lees ik dat de insteek is dat van 32 participanten datasets op basis van beelddata werden gemaakt (die fameuze micro-expressies); een webcam van 640×480 pixels op 30 fps, elk frame is een data-vector. Koppel de beelden aan een vraag (“Wat zit er in uw koffer” of “Wat is de naam van iemand die uw verhaal kan bevestigen”) en je hebt je dataset. Het lijkt een standaard neural network met 20 verborgen lagen, waarbij inderdaad accuratesse van 76% werd gerapporteerd op de test-set. Nou is dat al niet hoog, maar het is dus gebaseerd op twee-en-dertig mensen. Dat vind ik bizar weinig. Ik ken natuurlijk de training voor douanebeambten niet, maar ik mag hopen dat die meer dan 32 trainingssituaties krijgen voordat ze ‘los’ mogen aan de grens?

Vervolgens vind ik deze Powerpoint (met wat zorgelijke dingen, zoals dat in de lijst van risicofacturen op slide 16 mensen hun Twitter(???) genoemd wordt. En wat ik volledig mis is hoe het systeem uitlegt waarom je in de verhoogdrisicorij terecht gekomen bent, een AVG eis. Ik denk dat ze denken dat dat niet hoeft omdat het systeem rule-based is, maar dat is onterecht.

Daar komt dan bij dat microexpressies helemaal niets zeggen, aldus UvA-professor Bruno Verschuere. Dus zelfs als je wel een representatief model hebt, dan slaat het aan op features die niets zeggen over de werkelijkheid. Effectief heb je daarmee een hele dure (4,5 miljoen Euro) random nummer generator gebouwd, maar met de pretentie dat het iets zegt dat het lampje rood werd. Dat lijkt me bepaald niet de bedoeling.

Arnoud

16 reacties

  1. met wat zorgelijke dingen, zoals dat in de lijst van risicofacturen op slide 16 mensen hun Twitter(???) genoemd wordt.

    Voorbeeldje dat ook in de Tweakers.net thread hierover werd aangehaald; Als er een vluchteling binnen wil komen die claimt te worden bedreigt in zijn thuisland omdat hij van geboorte fervent christen is. Als zijn Twitter account duidelijk maakt dat hij 5 keer per dag richting Mekka bid, is dat zéker interessante informatie om te hebben voor een douanier.

    1. Nee, daar heeft de douane niets mee te maken. Wat je op Twitter zegt, heeft nul relevantie voor wat je in je koffer hebt of wat je op of in je persoon probeert mee te smokkelen. De Marechaussee of de IND zou deze informatie denk ik wel relevant vinden, maar het systeem is niet getraind op het herkennen van valse asielzoekverklaringen.

  2. Ik heb wat moeite met de term Douane in deze contekst. Douane is de dienst die over invoerrechten/tegengaan van smokkel gaat, niet over de toegang tot het grondgebied.

    Voor de afweging ‘vinden we dit juridisch OK?’ maakt het een heel verschil of het gaat over (tijdelijk) toegang verlenen aan individuele reizigers, of over een adminstratieve zaak (heb je misschien teveel drank bij je zodat je invoerrechten moet betalen), of over het toekennen van een vluchtelingenstatus aan iemand (zoals de eerste antwoorder Joolee lijkt te veronderstellen).

    Waar gaat het over?

    1. Het gaat om de douane. In het onderzoek werden de ‘kwaadwillende’ proefpersonen gevraagd enkele verboden voorwerpen in te pakken en daarover te liegen bij de ondervraging. Kort gezegd is de sanctie die uit dit systeem komt, dus dat je koffer extra grondig doorzocht wordt en dat je veel meer vragen krijgt over wat je komt doen. Mogelijk dat men ook de marechaussee inseint en dat die dan ook harder gaat spitten, maar dat is formeel geen output van het systeem.

      1. Dan vind ik het, eerlijk gezegd, niet zo’n probleem.

        Het enige dat dan van het (mogelijk onbetrouwbare) systeem afhangt is de kans dat je gepakt wordt bij iets wat toch al verboden is.

        Het zou wat anders zijn als iets waar je recht op hebt, je ontnomen wordt door een twijfelachtige beslissing van een systeem.

        1. Het probleem is dan ook niet dat op basis van dit systeem je bagage doorzocht wordt.

          Het probleem is dat er dus blijkbaar randdebielen rondlopen die regels maken en belastinggeld uitgeven op basis van pseudo wetenschappelijk onderbouwde onzin. En dat daar dus blijkbaar geen goede controle op is waardoor deze mensen tot de orde geroepen kunnen worden.

          1. Tja, er worden jaarlijks vele miljarden verdeeld door de EU om innovatie en zo te stimuleren, er zal wel eens een projectje doorglippen waar je vraag tekens bij kunt stellen.

            Ik stel me meer vragen bij het feit dat het blijkbaar in Hongarije getest wordt, een land waarvan je het democratisch rechtstaatgehalte, en dan vooral wat betreft behandeling van mensen aan grenzen, niet als norm voor de EU wilt.

            Als Hongarije terugkomt met ‘Ja, werkt goed, doe er maar honderd’ dan weet ik niet of dat een goed resultaat is.

            1. Het gevaar met 32 proefpersonen is dat je nooit alle doelgroepen aanboort. Als de 32 zo goed mogelijk verdeeld zijn, kan het zijn dat er een proefpersoon is geweest van jouw huidskleur, geslacht en, bijvoorbeeld, gezichtsvorm. Dan moeten jouw micro-expressies maar net overeenkomen met die 1 of 2 proefpersonen die vergelijkbaar met je zijn. Als er wat meer proefpersonen zijn die lijken op je, dan is de kans wat groter dat ze dit kunnen meten, maar dat betekent ook weer dat er van een ander juist helemaal geen lijkend proefpersoon is. Het risico is dus dat bepaalde bevolkingsgroepen helemaal niet of altijd wel gecontroleerd worden, omdat er niet genoeg vergelijkingsmateriaal is.

              Bovendien moet dit worden uitgelezen met een webcam. “640×480 pixels bij 30 frames per seconde”, volgens mij is dit zelfs optimistisch. Ik denk dat er nog genoeg internetverbindingen en webcams zijn die dit niet halen, en/of een ernstige compressie gebruiken waardoor de beelden ernstig worden aangetast. Natuurlijk kun je daaruit nog wel iets aflezen en analyseren, maar de kans dat dit alles erg onbetrouwbaar is, is erg hoog, en dan krijgen we opnieuw de vraag “Waar discrimineert het systeem dan wel op?” Is het volledig random, of triggert hij toch vooral op specifieke bevolkingsgroepen?

              En wat doen de douaniers als het rode lampje gaat branden? Weten ze dat het een onbetrouwbaar systeem is en dat dit alleen betekent dat het systeem verdere controle vraagt, of worden gelijk de autostoelen opengesneden op zoek naar verboden waar? In het ergste geval is je hele hebben en houden ontmantelt omdat een ouija bord “Nee” heeft gezegd.

  3. Wat ontbreekt in je artikel is dat het belangrijkste deel van het iBorderCtrl is het controleren van iemands gezicht aan de hand van bestaande foto’s uit onder andere paspoorten of genomen tijdens eerdere bezoeken aan de EU.

    https://horizon-magazine.eu/article/avatar-interviews-and-portable-scanners-speed-border-crossings.html

    Ik denk dat er ook veel potentieel is om aan de hand van foto’s criminelen of terroristen met deze software te herkennen maar dat zullen ze liever niet vermelden.

  4. Aan de andere kant gebruiken agenten, douaniers etc. (en iedereen eigenlijk) iedere dag een niet-wetenschappelijke leugendetector: hun ervaring en intutitie (en opleiding). Wat dat betreft is er niet veel verschil.

  5. Ik snap het niet helemaal. De EU was zo enorm kritisch over Hongarije’s grenscontrolebeleid en nu ineens gaan ze toch e.e.a. uitvoeren bij hun grens? Is dat een vorm van acceptatie (dat ze het uiteindelijk dus tóch eens zijn met Hongarije’s beleid) of …?

  6. Doet me denken aan pre-screening dyslexie toetsjes in het voortgezet onderwijs, die veel scholen bij al hun leerlingen afnemen. Die zijn zeer onbetrouwbaar en daarom ook alleen bedoeld om daarna door te verwijzen voor echt onderzoek. Dat wordt er ook wel eerlijk bij gezegd, maar voor kinderen, hun ouders en vaak ook docenten heeft de uitslag toch een enorme impact. Er ontstaat onzekerheid over of een kind ‘iets heeft’. Die onzekerheid blijft vaak jaren hangen, ook al blijkt er niks aan de hand te zijn.

    Ik denk dat het een verkeerde aanname is, dat mensen onbetrouwbare informatie goed kunnen wegen. Degene die een systeem als dit bedenken en personen hoog in de beslissingsketen, zullen dit vast wel kunnen. Dit is een competenties die zij nodig hebben voor hun werk. Maar een groot deel van de rest van de mensen op deze wereld heeft hier veel moeite mee. Dat merk je ook aan de impact van fakenews.

    Lijkt me een goed streven om zoveel mogelijk van dit soort systemen die desinformatie opleveren, de wereld uit te krijgen. Veel mensen kunnen het niet aan.

  7. Ik ben wel eens uit de rij gehaald, omdat ik zat te denken: “Hoe kijk ik nu het best mogelijk,” vergelijkbaar met nadenken bij trappen lopen of andere ingesleten gewoonten. Je moet er niet aan denken, dat zo’n systeem je er dan uitpikt. De Stasi had betrouwbaardere opsporingsmethodes. Gewoon iemand de verklaring vaker laten afleggen. De leugenaar valt met zijn ingestudeerde verhaaltje door de mand, omdat hij telkens dezelfde woorden gebruikt.

    1. Een andere bekende strategie is doorvragen op details. De leugenaar zal deze minder snel kunnen oplepelen dan de persoon die het echt heeft gedaan, en bovendien beter consistent zijn in zijn antwoorden. (In welke kamer heb je de koffer ingepakt; wanneer ben je ermee begonnen; hoe heb je hem naar beneden getild, enz., ….)

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.