Wat moet ik me voorstellen bij een 91% accurate lawyerbot? #legaltechtuesday

| AE 12732 | Innovatie | 6 reacties

Na de lancering van lawyerbot Lynn kreeg ik veel reacties, waarbij ik één onderwerp eruit wilde lichten: hoe zit dat met die accuratesse, wat betekent het dat Lynn 91% accuraat een document screent? Hoe meet je überhaupt “accuraat” bij een juridische screening?

Om even met het getal te beginnen: die 91% is eigenlijk de F1-score of F1-maat uit de statistiek. Deze formule zoekt een balans tussen enerzijds de precisie (het percentage werkelijk correct gelabelde clausules) en de vangst of recall (het percentage correct positief gelabelde clausules), en dat zijn dan weer twee maten die iets zeggen over de kwaliteit.

De kern is dat deze maat ongevoeliger is dan bijvoorbeeld alleen kijken naar het aantal correcte labels. Computers zijn grappig wat dat betreft: als je stuurt op “ik wil 100% correcte labels” dan krijg je één label dat correct is, dat is namelijk honderd procent. En zeg je, ik wil niets missen uit categorie X, dan wordt je hele contract als X aangemerkt want dan heb je in ieder geval niets gemist. Volgens het boekje kun je dan beter naar de F1 score kijken, dus dat doe ik dan maar.

Je kunt natuurlijk nog een stapje dieper gaan. Wat is erger, een clausule missen (overslaan, niet relevant) die buitengewoon pijnlijk was, of een clausule verkeerd labelen? Of de clausule wel herkennen maar als onschuldige variant aanmerken? En maakt het dan uit of je aansprakelijkheid miste maar het wijzigingsbeding-als-de-AVG-verandert netjes aanwees, of andersom?

Wat me daarbij opvalt is dat de zorg over fouten bij lawyerbots hoog zit bij veel mensen. En dat snap ik, want we hebben allemaal een zekere onbewuste angst voor dingen die automatisch iets doen, helemaal als dat mensachtig werk is. Wat dan precies de angst is (wat is erger) dat verschilt bij personen.

Is het een gekke gedachte dat niemand dit ooit zo verifieert bij een menselijke jurist? Die wordt ook getraind met een grote trainingset, al het werk dat hij onder begeleiding van een collega/partner uitvoert. Maar niemand die ooit vraagt, laat eens zien welke NDA’s jij de afgelopen tien jaar hebt gereviewd zodat ik weet hoe goed jij bent in het inschatten van fouten en nasty clausules. Waarom moet een AI dat dan wel kunnen laten zien? Nieuwigheid dus bewijs maar dat je beter bent?

Arnoud

EU test nepwetenschappelijke leugendetector bij grenscontroles

| AE 10949 | Regulering | 16 reacties

Wat bizar: in Griekenland, Hongarije en Letland begint een test van de Europese Unie met een leugendetector bij de grenscontrole, las ik bij Tweakers. Het iBorderCtrl-systeem analyseert ‘microgezichtsuitdrukkingen’ van reizigers om te controleren of ze de waarheid vertellen. Niet alleen is deze test gebaseerd op onderzoek waarbij slechts 32 vrijwilligers betrokken waren als proefpersonen, er is ook geen wetenschappelijke onderbouwing dat microexpressies überhaupt iets zeggen over leugenachtigheid. Maar ja, er zit een Artificial Intelligence in en uiteindelijk zegt het systeem alleen maar dat iemand verder moet worden gecontroleerd, dus niets aan de hand toch? Nou, dus wel.

In de kern komt het erop neer dat je als potentiële bezoeker online een aanvraag doet om de EU in te mogen. Je uploadt dan een foto van je paspoort en doet een intake met een virtuele douanebeambte in jouw taal, waarbij je wordt gefilmd met je eigen webcam. Software bij de douane analyseert die beelden (van 640×480 pixels bij 30 frames per seconde) op ‘microexpressies’, zeer kleine veranderingen in het gelaat die worden gekoppeld aan emotionele reacties. Een Machine Learning model (“een AI”) trekt daar statistische gegevens uit en legt deze langs een berg met proefpersoondata om zo te bepalen of je waarschijnlijk een leugenaar bent. Je komt dan in aanmerking voor extra controle.

Bedoeling van het systeem is natuurlijk om de douanebeambten aan de grens te ontlasten. Als een AI kan filteren op de verdachte personen, dan kan de douane daar haar aandacht op richten en de ‘gewone’ bezoekers doorlaten. Dat concept (dat ik eerder besprak) ondersteunt slechts de werkprocessen, en is daarmee juridisch geen probleem.

Het is ook niet verboden onder de AVG (die ook geldt bij grenscontroles, omdat hij geldt voor alle verwerkingen die in Europa gebeuren, en de dienst van het pre-screenen gebeurt in Europa). Weliswaar mag een computer geen besluiten nemen, maar een aanwijzing of iemand gecontroleerd moet worden, telt niet als besluitvorming in de zin van de AVG. Deze actie raakt je niet “in aanzienlijke mate”, zoals de wettelijke formulering is.

Inhoudelijk is dit natuurlijk behoorlijk problematisch. Natuurlijk is het geen robot die je bij de grens tegenhoudt. Er gaat een rood lampje branden bij de menselijke douanecontroleur, maar die moet vervolgens nog wel iets van bewijs te voorschijn krijgen. Alleen, in mijn ervaring is er altijd wel iets als je goed zoekt, in bureaucratische en voor gebruikers onbekende situaties. Zeker wanneer de controleur het onderzoek in gaat met “er is iets aan de hand”. Je krijgt dan een heel andere insteek van het gesprek en de doorzoeking dan bij een “Persoon geselecteerd voor willekeurige controle”. Dat vind ik ernstig.

In het paper van het onderzoek lees ik dat de insteek is dat van 32 participanten datasets op basis van beelddata werden gemaakt (die fameuze micro-expressies); een webcam van 640×480 pixels op 30 fps, elk frame is een data-vector. Koppel de beelden aan een vraag (“Wat zit er in uw koffer” of “Wat is de naam van iemand die uw verhaal kan bevestigen”) en je hebt je dataset. Het lijkt een standaard neural network met 20 verborgen lagen, waarbij inderdaad accuratesse van 76% werd gerapporteerd op de test-set. Nou is dat al niet hoog, maar het is dus gebaseerd op twee-en-dertig mensen. Dat vind ik bizar weinig. Ik ken natuurlijk de training voor douanebeambten niet, maar ik mag hopen dat die meer dan 32 trainingssituaties krijgen voordat ze ‘los’ mogen aan de grens?

Vervolgens vind ik deze Powerpoint (met wat zorgelijke dingen, zoals dat in de lijst van risicofacturen op slide 16 mensen hun Twitter(???) genoemd wordt. En wat ik volledig mis is hoe het systeem uitlegt waarom je in de verhoogdrisicorij terecht gekomen bent, een AVG eis. Ik denk dat ze denken dat dat niet hoeft omdat het systeem rule-based is, maar dat is onterecht.

Daar komt dan bij dat microexpressies helemaal niets zeggen, aldus UvA-professor Bruno Verschuere. Dus zelfs als je wel een representatief model hebt, dan slaat het aan op features die niets zeggen over de werkelijkheid. Effectief heb je daarmee een hele dure (4,5 miljoen Euro) random nummer generator gebouwd, maar met de pretentie dat het iets zegt dat het lampje rood werd. Dat lijkt me bepaald niet de bedoeling.

Arnoud