Politiek wil waakhond op algoritmes, maar ik heb liever een keurmerk voor de trainingsdata

De Nederlandse politieke partijen D66 en CDA roepen het kabinet dinsdag in een motie op toezichthouder op te zetten die het gebruik van algoritmes bij de overheid in de gaten houdt. Dat las ik bij Tweakers maandag. De macht van algoritmes is een steeds grotere angst aan het worden: ze zijn niet transparant, ze kunnen al snel discrimineren of oneerlijk behandelen en ambtenaren voelen zich vaak verplicht om te doen wat het algoritme zegt in plaats van hun eigen afwijkende opvatting over de zaak door te zetten. Een loffelijk idee, alleen vergeten ze weer waar het eigenlijk om gaat: it’s the data, stupid.

Aanleiding voor het voorstel is eerdere berichtgeving van de NOS over de macht van algoritmes. Schokkend vond ik vooral dat niet duidelijk was waar en hoe men geautomatiseerde besluitvorming toepast, de NOS had vele wob verzoeken nodig om een en ander een tikje inzichtelijk te krijgen. De richtlijn moet duidelijk maken in welke gevallen gebruik van algoritmes wel of niet gerechtvaardigd is. Of er een volledig nieuwe toezichthouder moet komen of dat bijvoorbeeld de Autoriteit Persoonsgegevens extra bevoegdheden krijgt, moet nog worden besloten.

Een algoritme is een reeks instructies die door een computer wordt uitgevoerd, zo meldt de NOS netjes. Alleen hebben we het hier niet over algoritmes in klassieke zin, zoals in het stroomschema hier rechtsboven. Een klassiek algoritme is als een taartrecept: doe eerst dit, als de temperatuur hoog genoeg is doe dan dat, doe daarna zus tenzij X want dan zo. En computers gaan dat dan rechtlijnig uitvoeren. (Kennen jullie die van de programmeur die totaal uitgeput uit zijn douche werd gehaald? Op de shampoofles stond namelijk: haren natmaken, shampoo aanbrengen, uitspoelen, herhalen.)

Dergelijke algoritmes worden top-down ontworpen. Begin met de hoofdlijnen, zoek de simpele randgevallen en voeg daar uitzonderingen voor toe, draai het een paar keer en voeg extra uitzonderingen of bijzondere regels toe. Dat groeit door de tijd heen, maar in principe is elke stap bewust genomen en iedere uitbreiding weloverwogen. In theorie is daarmee iedere stap uit te leggen.

De algoritmes waar dit voorstel over gaat, zijn echter geen klassieke algoritmes. Ik zou dit haast kunstmatige intelligentie noemen maar het is gewoon machine learning: het zoeken naar trends en verbanden op basis van grote bakken met data. Eigenlijk gewoon statistiek: in deze bak data zijn dit de fraudeurs en dit niet, en dan flink doorrekenen wat die gemeenschappelijk hebben om zo een voorspellende functie te bedenken die voor een nieuwe aanmelding zegt of deze fraudeur is.

Die voorspellende functie, geladen met die data, is dan een algoritme in de zin dat het een reeks instructies is – maar praktisch gezien is het onvergelijkbaar met die klassieke algoritmen. Sterker nog: ik durf wel te zeggen dat die functie an sich totaal niet interessant is. Daar zijn er genoeg van, en hoewel ieder deep neural net vast zijn eigen prachtige theorie en implementatie heeft, is dat niet waar het om gaat. Laad datzelfde net met nieuwe data en je krijgt iets compleet anders.

Het gaat dus om die data en niets anders. Welke data gaat erin, hoe is die samengesteld en hoe wordt geborgd dat dit een eerlijke en objectieve samenstelling is? Want dáár komt al die ellende van. Vaak is data uit beperkte bron geselecteerd, of ergens aangekocht, en in ieder geval is ‘ie niet getest op representativiteit en actualiteit. Daar gaat het dan meteen mis, want met slechte brondata ga je natuurlijk nooit goede voorspellingen doen. Maar het enge is, het lijken bij het testen best goede voorspellingen want je houdt altijd een stukje van je brondata apart om eens mee te testen. En ik geloof onmiddellijk dat je dan goede uitkomsten krijgt. Logisch, het is dezelfde bron en op dezelfde manier gecategoriseerd.

Ik zou er dus hard voor willen pleiten om geen tijd te verspillen aan die algoritmes, maar juist de problemen bij de bron te bestrijden: geen data de overheid in tenzij met keurmerk. De data moet kloppen, eerlijk zijn en volledig. Dáár een toezichthouder voor lijkt me een prima idee.

Arnoud

In Estland denken ze dat AI een eerlijke rechter kan zijn

De Baltische staat Estland timmert al geruime tijd fors aan de weg met wat wij e-government zouden noemen: innovatief en digitaal diensten aan de burger aanbieden, van een elektronische identiteitskaart tot een compleet online loket. Veilig, snel en goedkoop. En AI oftewel machine learning speelt daarbij een steeds grotere rol. Mede gedreven vanuit de behoefte aan een kleinere overheid reduceert men het aantal ambtenaren continu, om daar AI-gedreven diensten voor in de plaats te zetten. De laatste kandidaat: de rechtspraak. Zou dat wel goed gaan?

Het Estse ministerie van Justitie heeft onlangs chief data officer Ott Velsberg gevraagd een digitale rechtbank te ontwikkelen die volautomatisch kantonzaken – tot 7.000 euro – kan vonnissen. Velsberg is geen nieuwkomer: zijn team ontwikkelde eerder een hooiveldscanner waarmee subsidies voor braakliggend land konden worden gecontroleerd, en een banenmatcher voor de uitkeringsinstantie zodat gerechtigden eerder passend werk konden vinden. En nu dus de rechtspraak.

Een groot voordeel voor Estland is dat nu zo veel al geautomatiseerd is, het maar een kleine stap voelt om ook je juridische claims online in te dienen en te laten behandelen. Al dan niet met advocaat natuurlijk. Wel een grote stap verder is het automatisch laten behandelen – en dus een vonnis krijgen – van zo’n claim, zonder menselijke tussenkomst.

Helaas is er nog weinig in detail gepubliceerd over hoe het systeem moet gaan werken, maar het lijkt het bekende stramien van AI oftewel machine learning te zullen volgen. Voed het systeem met zo veel mogelijk oude zaakdossiers, koppel daaraan de uitspraak en laat het systeem ‘kauwen’ op die gegevens om lijnen en voorspellers te ontdekken. Vervolgens kun je nieuwe dossiers in het systeem plaatsen, die dan langs die lijnen worden gehouden om te zien of ze wel dan niet moeten worden toegepast.

Dit lijkt enigszins op hoe rechters nu ook werken: op basis van ervaring prik je snel door argumenten heen, zie je wat ontbreekt in het dossier of wat opmerkelijk is. En daar kun je dan een conclusie op bouwen. Maar een belangrijk verschil is natuurlijk dat een AI totaal niet de inhoud van het dossier analyseert, maar afgaat op rekensommetjes met die inhoud.

Een risico is dan ook dat een AI-rechtbank op basis van de verkeerde soort informatie conclusies trekt. Zo zou het kunnen gebeuren dat de meeste winnende eisers in de Estse hoofdstad Tallinn gevestigd zijn. Toeval, maar voor een AI significant. Die zou dan in een twijfelzaak deze vestigingsplaats de doorslag laten geven.

Natuurlijk kun je dat soort zaken proberen te filteren, bijvoorbeeld door NAW-gegevens te anonimiseren, maar dingen kunnen door blijven schemeren. Het Amerikaanse bedrijf Amazon ontdekte bijvoorbeeld dat hun sollicitatie-AI sterk de voorkeur gaf aan mannen, ook nadat men het geslacht van de kandidaat had geblokkeerd voor de brievenlezende robot. Het geslacht kon immers worden afgeleid uit hobby’s als vrouwentennis, waar natuurlijk maar weinig mannen aan meedoen. En als je ook dat verwijdert, zijn er misschien factoren als veel deeltijdbanen hebben bekleed.

Het onderliggende probleem is uiteindelijk altijd bij dit soort systemen dat zij alle data als even relevant behandelt. Dit terwijl mensen hoofd- en bijzaken kunnen scheiden, en weten dat de aanschaf van een bankstel dezelfde soort geldschuld geeft als de aanschaf van een auto. Dergelijke abstracties kunnen AI’s compleet niet maken.

Dat wil niet zeggen dat AI’s onmogelijk zijn in de rechtspraak. Een simpele variant zou een dossierchecker zijn: een zoektocht naar een ingebrekestelling in een dossier komt neer op tekstherkenning, iets waar computers beter in zijn dat mensen. En een claim wegens schadevergoeding zonder ingebrekestelling kan dan eenvoudig worden afgehandeld. AI helpt dan bij het zoeken naar feiten, naar invoer waarmee juridische regels worden ingezet. En dat lijkt me een betere verdeling van de respectieve krachten.

Arnoud

Facebook overtreedt mogelijk AVG door medewerkers posts te laten labelen

Facebook overtreedt mogelijk de Europese privacyverordening AVG door medewerkers van daarvoor aangestelde bedrijven te laten kijken naar posts om ze te labelen. Dat las ik bij Tweakers maandag. Een team van 260 mensen uit India leest al jaren alle berichten (inclusief foto’s) om die van labels te voorzien, zo ontdekte Reuters namelijk. Die labels classificeren de berichten in vijf “dimensies”, zodat Facebook kan leren van wat mensen posten en hoe daarop in te springen. En er zal ook vast een AI mee getraind worden. De privacyzorg zit hem dan in het feit dat er geen aparte toestemming is gevraagd voor dit labelen. Maar moet dat dan, van de AVG?

De AVG kent inderdaad de eis van toestemming – maar naast toestemming zijn er nog vijf zogeheten grondslagen om met persoonsgegevens te werken. Als je gegevens bijvoorbeeld nodig hebt om een contract af te handelen, dan heb je geen toestemming nodig. Webshops die aanvinkvakjes inbouwen met “ik geef toestemming bovenstaande gegevens te gebruiken om mijn bestelling te behandelen” snappen er dus niets van. Die toestemming is helemaal niet nodig.

De controversieelste grondslag is die van het “eigen gerechtvaardigd belang”. Dan zeg je namelijk, ik heb een belang als bedrijf om dit gewoon te gaan doen, maar ik heb wel rekening gehouden met je privacy door maatregelen A en B te nemen. Controversieel, omdat je hiermee eigenlijk weigert de ander te vragen om toestemming en veel mensen gewoon verwachten dat je toestemming vraagt waar nodig. Maar ook weer gerechtvaardigd omdat je soms nu eenmaal geen toestemming kúnt vragen. Een triviaal voorbeeld is camerabewaking of fraudedetectie in je betaalpatronen.

Facebook vraagt dus geen toestemming om berichten die post (of als privébericht verstuurt) voor te leggen aan haar labelingsteam. Dat zouden ze dus moeten rechtvaardigen onder dat eigen belang. Het belang zie ik: je herkenning van soorten berichten verbeteren is een wenselijk en nuttig doel, zeker gezien de druk op Facebook om terrorismeverheerlijking, nepnieuws, opruiing en dergelijke te kunnen detecteren en weren.

De discussie die je dan krijgt, is in hoeverre Facebook dit kan rechtvaardigen. En dat komt vaak neer op hoe zeer men rekening houdt met de privacy van personen. Mijn juridische onderbuik zegt dat een bericht tonen aan een intern team dat er een label op plakt (pardon, “verrijkt met een AI-ready dimensie”, dank u marketingafdeling) niet heel erg een inbreuk op de persoonlijke levenssfeer is. Het label heeft geen enkel gevolg voor het bericht zelf, dit wordt niet verwijderd of aangepast op basis van de beoordeling. Plat gezegd, hier merk je niets van.

Twijfel heb ik wel bij het stukje van de privéberichten, want ook die worden gelezen. Het voelt principieel niet juist om een direct bericht tussen A en B te lezen en te taggen, ook niet als die tag verder nergens gebruikt wordt. Dat is gewoon privé, afblijven. Maar ik kan niet ontkennen dat ook hier het argument “je merkt er niets van” opgaat.

Arnoud

EU test nepwetenschappelijke leugendetector bij grenscontroles

Wat bizar: in Griekenland, Hongarije en Letland begint een test van de Europese Unie met een leugendetector bij de grenscontrole, las ik bij Tweakers. Het iBorderCtrl-systeem analyseert ‘microgezichtsuitdrukkingen’ van reizigers om te controleren of ze de waarheid vertellen. Niet alleen is deze test gebaseerd op onderzoek waarbij slechts 32 vrijwilligers betrokken waren als proefpersonen, er is ook geen wetenschappelijke onderbouwing dat microexpressies überhaupt iets zeggen over leugenachtigheid. Maar ja, er zit een Artificial Intelligence in en uiteindelijk zegt het systeem alleen maar dat iemand verder moet worden gecontroleerd, dus niets aan de hand toch? Nou, dus wel.

In de kern komt het erop neer dat je als potentiële bezoeker online een aanvraag doet om de EU in te mogen. Je uploadt dan een foto van je paspoort en doet een intake met een virtuele douanebeambte in jouw taal, waarbij je wordt gefilmd met je eigen webcam. Software bij de douane analyseert die beelden (van 640×480 pixels bij 30 frames per seconde) op ‘microexpressies’, zeer kleine veranderingen in het gelaat die worden gekoppeld aan emotionele reacties. Een Machine Learning model (“een AI”) trekt daar statistische gegevens uit en legt deze langs een berg met proefpersoondata om zo te bepalen of je waarschijnlijk een leugenaar bent. Je komt dan in aanmerking voor extra controle.

Bedoeling van het systeem is natuurlijk om de douanebeambten aan de grens te ontlasten. Als een AI kan filteren op de verdachte personen, dan kan de douane daar haar aandacht op richten en de ‘gewone’ bezoekers doorlaten. Dat concept (dat ik eerder besprak) ondersteunt slechts de werkprocessen, en is daarmee juridisch geen probleem.

Het is ook niet verboden onder de AVG (die ook geldt bij grenscontroles, omdat hij geldt voor alle verwerkingen die in Europa gebeuren, en de dienst van het pre-screenen gebeurt in Europa). Weliswaar mag een computer geen besluiten nemen, maar een aanwijzing of iemand gecontroleerd moet worden, telt niet als besluitvorming in de zin van de AVG. Deze actie raakt je niet “in aanzienlijke mate”, zoals de wettelijke formulering is.

Inhoudelijk is dit natuurlijk behoorlijk problematisch. Natuurlijk is het geen robot die je bij de grens tegenhoudt. Er gaat een rood lampje branden bij de menselijke douanecontroleur, maar die moet vervolgens nog wel iets van bewijs te voorschijn krijgen. Alleen, in mijn ervaring is er altijd wel iets als je goed zoekt, in bureaucratische en voor gebruikers onbekende situaties. Zeker wanneer de controleur het onderzoek in gaat met “er is iets aan de hand”. Je krijgt dan een heel andere insteek van het gesprek en de doorzoeking dan bij een “Persoon geselecteerd voor willekeurige controle”. Dat vind ik ernstig.

In het paper van het onderzoek lees ik dat de insteek is dat van 32 participanten datasets op basis van beelddata werden gemaakt (die fameuze micro-expressies); een webcam van 640×480 pixels op 30 fps, elk frame is een data-vector. Koppel de beelden aan een vraag (“Wat zit er in uw koffer” of “Wat is de naam van iemand die uw verhaal kan bevestigen”) en je hebt je dataset. Het lijkt een standaard neural network met 20 verborgen lagen, waarbij inderdaad accuratesse van 76% werd gerapporteerd op de test-set. Nou is dat al niet hoog, maar het is dus gebaseerd op twee-en-dertig mensen. Dat vind ik bizar weinig. Ik ken natuurlijk de training voor douanebeambten niet, maar ik mag hopen dat die meer dan 32 trainingssituaties krijgen voordat ze ‘los’ mogen aan de grens?

Vervolgens vind ik deze Powerpoint (met wat zorgelijke dingen, zoals dat in de lijst van risicofacturen op slide 16 mensen hun Twitter(???) genoemd wordt. En wat ik volledig mis is hoe het systeem uitlegt waarom je in de verhoogdrisicorij terecht gekomen bent, een AVG eis. Ik denk dat ze denken dat dat niet hoeft omdat het systeem rule-based is, maar dat is onterecht.

Daar komt dan bij dat microexpressies helemaal niets zeggen, aldus UvA-professor Bruno Verschuere. Dus zelfs als je wel een representatief model hebt, dan slaat het aan op features die niets zeggen over de werkelijkheid. Effectief heb je daarmee een hele dure (4,5 miljoen Euro) random nummer generator gebouwd, maar met de pretentie dat het iets zegt dat het lampje rood werd. Dat lijkt me bepaald niet de bedoeling.

Arnoud

Mag een AI gaan bellen voor een afspraak bij de kapper?

Restaurants en kapsalons kunnen zich afmelden voor Duplex, waarin digitale assistent Google Assistant belt met restaurants en kapsalons. Dat meldde Tweakers onlangs. De digitale assistent is ontworpen om afspraken en dergelijke telefoontjes te regelen, zodat mensen dat niet zelf hoeven te doen. De gesprekservaring vind ik indrukwekkend, maar het roept natuurlijk wel wat juridische vragen op. Mag dat wel, zomaar als robot een mens gaan bellen? En is het bindend, zo’n afspraak?

De Assistant kan op verzoek van gebruikers op de achtergrond met de telefoon van de gebruiker bellen met bijvoorbeeld een restaurant of kappersalon om een afspraak te maken, schreef Tweakers in mei. Zo kun je met een simpele steminstructie aan een robot er voor zorgen dat het gewenste bedrijf wordt gebeld en dat die afspraak er komt, ook als het jou dan even niet handig uitkomt of je geen zin hebt in de sociale interactie die hoort bij een afspraak maken. Dergelijke afspraken zijn vaak gedoe, dus het is fijn als een computer je werk uit handen neemt.

Maar is het bindend? Ik zou zeggen van wel. Die robot maakt de afspraak op jouw instructie, en ten behoeve van jou. In feite is dit niets anders dan wanneer jij een webformulier invult of via de app op een knopje drukt. Afspraak is afspraak, dus als de robot dat zo regelt dan gá je donderdag om 9.45 naar de kapper. Ook al bedoelde jij eigenlijk 19.45. Jouw assistent zegt het, jij stuurde hem naar de kapper dus jij hangt voor het resultaat. Ook als je dat niet zo had bedoeld. Jouw assistent, jouw risico.

Natuurlijk kun je het gros van zulke afspraken probleemloos verzetten of annuleren, dus heel veel impact zal het niet hebben. Maar zodra we nog een stapje verder gaan, wordt het interessant voor juristen. Stel je assistent belt om een pizza te laten bezorgen, of regelt een kapper of stucadoor aan huis. Daar zitten wél kosten aan, al zijn het maar annuleringskosten of no-show fees als je er niet bent donderdag 9.45. Ik heb er geen twijfel over dat je er dan ook aan hangt. Ook als je dat niet zo had bedoeld. Afspraak is afspraak, en dat jij een onbetrouwbare assistent inschakelt is écht jouw risico.

Interessant vond ik nog het puntje dat we hier ineens weer robots hebben die mensen bellen. Dat hadden we twintig jaar terug ook, totdat de Telecommunicatiewet het verbood. Mensen werden gek van bandjes die je belden, waarna jij maar bezwaar moest maken als je dat niet leuk vond. Naar de letter van de wet zit zo’n Google AI volgens mij echt fout:

Het gebruik van automatische oproep- en communicatiesystemen zonder menselijke tussenkomst, faxen en elektronische berichten voor het overbrengen van ongevraagde communicatie voor commerciële, ideële of charitatieve doeleinden aan abonnees of gebruikers is uitsluitend toegestaan, mits de verzender kan aantonen dat de desbetreffende abonnee of gebruiker daarvoor voorafgaand toestemming heeft verleend

Zo’n robocall is een automatische oproep met communicatie zonder menselijke tussenkomst. De twijfel zou hem zitten in of het ongevraagd is. Is het zeg maar spam als je een reserveringslijn belt om een reservering te maken? Of valt dat nummer onder “contactgegevens die door de gebruiker daarvoor zijn bestemd en bekendgemaakt”, waar een uitzondering op dat belverbod op geldt?

Arnoud

Het gaat bij AI niet om algoritmes, het gaat om de data die je erin stopt

Steeds vaker lees ik over aandacht voor AI en algoritmes bij de politiek. Een goeie ontwikkeling, zeker omdat AI software steeds vaker ingezet wordt om bestuur te ondersteunen. Bijvoorbeeld het selecteren van cold cases waar potentie in zit of herkennen van potentiële onrust zodat je de geweldprotesten voor kunt zijn. Steeds vaker lees ik daarbij ook dat men inzicht wil in de algoritmes, en dát voelt voor mij als de verkeerde insteek. It’s the data, stupid.

Om een of andere reden is het woord ‘algoritme’ recent populair geworden als korte omschrijving voor computeranalyses waarmee dit soort zaken worden geregeld. Van het customizen van een newsfeed tot het detecteren van criminaliteit in historische politiegegevens, het heet allemaal “algoritme”. Ergens klopt dat ook wel: een algoritme is “een eindige reeks instructies die vanuit een gegeven begintoestand naar een beoogd doel leidt” (Wikipedia), en al die systemen gebruiken een serie instructies om gegeven een bak met data te komen tot het beoogde doel van een voorspelling.

Alleen: die stappenplannen of reeksen instructies zijn op zichzelf helemaal niet zo spannend of bijzonder. Meestal gaat het om machine learning algoritmes, die op zoek gaan naar samenhang tussen factoren in een groot databestand om zo tot voorspellingen te komen. We zien dat terechte klachten over partnermishandeling samengaan met het wonen in een rijtjeshuis, deze klacht komt uit een rijtjeshuis dus grote kans dat ie terecht is, ga er maar heen. (De achterliggende factor is dan dat buren het horen en bellen, wat meer zekerheid geeft.)

Het algoritme dat dit doet, is echter volstrekt niet ontworpen of aangepast om specifiek die samenhang te zoeken. Gooi je er honderdduizend telecomcontracten in inclusief opzegdatum, dan kan hij met dezelfde instructies uitrekenen welke klanten waarschijnlijk gaan verlengen en welke niet. Het algoritme hoef je daarvoor niet aan te passen, meer dan aangeven wat de uitvoervariabele moet zijn is het in de praktijk eigenlijk niet.

Het gaat om de data. Wat erin gaat, bepaalt wat eruit komt. Daar hebben we het al vaker over gehad: foute data erin is natuurlijk foute data eruit, of dat nu vooringenomenheid is, kortzichtige selectiviteit of typefouten doet er dan verder niet toe. Maar als je als politiek wat wilt doen aan de betrouwbaarheid en vooral de eerlijkheid van AI, dan moet je het niet hebben over de algoritmes maar over de data. De data bepaalt voor 100% wat het systeem gaat zeggen. Je wilt dus inzicht in de data, en regels over de data.

Arnoud

Weten hoe de computer werkt, is een mensenrecht

Gemeenten gebruiken data over hun inwoners om problemen op te sporen voor ze uit de hand lopen, las ik in NRC Handelsblad. Handig dat datagedreven beleid, maar voor de burger stijgt de kans te worden afgerekend op voorspeld gedrag. En dat is een probleem, zelfs als je betoogt dat de gemeente zo gerichter kan handhaven omdat ze aan die data kan zien wie ze moet hebben in plaats van ongericht overal te gaan kijken. Want – bekend thema ondertussen – probeer maar eens te achterhalen wát de regels zijn waarop je dan afgerekend wordt. Toch een niet onbelangrijk thema binnen een rechtsstaat.

Datagedreven beleid, heet het. Het onbekende in kaart brengen als gemeente met data, en dat kan variëren van het voorspellen van de vervangingstermijn van vuilniswagens tot de tijd tussen schoonmaakacties. Maar meestal gaat het over mensen: kans op depressies, armoede en “leefbaarheidsproblemen”.

Uniek aan dit beleid is dat het vaak voor iedereen een black box is. Ook voor de ambtenaren zelf: er is data genoeg en de uitkomsten blijken bruikbaar, maar hoe het systeem nu precies van data tot uitkomst komt, blijft in het ongewisse.

Maxim Februari, filosoof en columnist van NRC, vindt dat kwalijk. „Een belangrijk principe van de rechtsstaat is dat burgers weten welke regels er zijn. Zo kunnen ze zich er ook tegen verweren, bijvoorbeeld door ze met een rechtszaak of met nieuwe wetgeving te veranderen.”

Het blijkt echter hardnekkig om te achterhalen hoe die algoritmes en datastromen werken in de praktijk. Onder de Wob slaagde Februari en consorten er niet in om hierachter te komen. Misschien dat het met een beroep op de AVG wel lukt: die eist immers uitlegbaarheid van je algoritmes die tot persoonsgebonden besluiten komen.

Ik blijf twijfels houden over de impact daarvan. Want AI en machine analyses werken niet zoals mensen. Het voelt dan ook wat onlogisch om te verwachten dat er uitleg uit komt die past bij wat mensen verwachten.

Een ding waar machine learning heel goed in is, is het vinden van correlaties. Vaak blijken dat ook zeer relevante correlaties en zal het aanpakken langs die as er ook voor zorgen dat problemen verminderen. Maar bewijs dat de correlatie ook een causatie is, is er vaak niet. Dus dan kom je niet verder dan “we zien opvallend vaak dat mensen met duizend volgers op Instagram en likes van de hangplek vroege schoolverlaters zijn”. Dat is waarschijnlijk wel wáár en ik kan achteraf ook wel een redenering daarbij verzinnen, maar bewijs is het niet.

Ik hoop heel erg dat ik het mis heb en dat we wel in staat blijken om causale redeneringen toe te voegen aan zulke systemen. Het nut van geautomatiseerde analyses zie ik namelijk wel bij beslisondersteuning en preselectie van overheidshandelen, maar zolang de uitleg afwezig of onbegrijpelijk blijkt, heb je er niets aan.

Arnoud

Goh, lawyerbots zijn beter dan juristen in het lezen van saaie juridische documenten

Alweer ietsje langer geleden maar toch: in een ‘wedstrijd’ tussen een lawyerbot van het Israëlische LawGeex en twintig Amerikaanse advocaten bleek de eerste een stuk beter in staat om juridische fouten in NDA’s en andere documenten te vinden. Om precies te zijn: de AI was 94% accuraat waar de mensen rond de 85% scoorden. Dit is natuurlijk nieuws omdat het de eerste wedstrijd in deze soort is, maar verbaast het echt dat een computer beter dingen kan vinden in een document dan mensen?

Je kunt natuurlijk aan alle kanten vraagtekens zetten bij het onderzoek (je bent professional issue spotter of je bent het niet). Hoe definieer je accuratesse, bijvoorbeeld? Is er werkelijk een objectieve gouden standaard van ‘fouten’ in een contract, of is dat wezenlijk een subjectieve inschatting waar twee juristen legitiem andere opvattingen over kunnen hebben bij dezelfde casus? Als ik iets laat staan omdat ik weet dat het praktisch gezien nooit speelt, en de AI het als fout signaleert omdat het volgens een rechtenprof in strijd is met de wet, wie heeft er dan gelijk?

Belangrijker voor mij (en de reden dat ik het eigenlijk negeerde, maar ik kreeg diverse mails erover) is echter dat dit onderzoek niets aantoont dat we niet al wisten. Een computer is haast per definitie altijd beter in het herkennen van patronen dan mensen, zeker als het steeds dezelfde soort patronen zijn over de lange termijn. Dat is bij het herkennen van vuurwapens in bagage niet anders dan het herkennen van rare clausules in juridische documenten.

Toegegeven, het bóuwen van zulke herkensoftware is niet eenvoudig. Hoe herken je effectief een juridische clausule in al zijn variaties, inclusief raar taalgebruik en fouten die al dan niet opzettelijk zijn gemaakt? Maar als het eenmaal staat, dan is het volgens mij volstrekt evident dat die het gaat winnen van iedere mens die in dat domein gaat opereren. Geen douanebeambte die een jaar lang ieder verboden artikel in bagage herkent, maar een computer gaat met dezelfde kwaliteit door totdat de stroom eraf gaat.

Dat is geen nieuws maar ook totaal niet erg – dit noemen we automatiseren van standaardwerk en het is precies waar AI binnen de legal tech voor bedoeld is. Het kan niet waar zijn dat we mensen werk willen laten doen dat net zo goed door robots gedaan kan worden. Binnen de juridische sector gebeurt dat echter veel en vaak, en hoe meer ik er over nadenk hoe raarder ik het vind. Er van dromen een vlammend pleidooi in de rechtbank te geven of keihard te onderhandelen en die droomdeal te sluiten, dat zie ik wel. Maar welke rechtenstudent droomt ervan contracten na te lopen op al dan niet onjuist gebruik van “represents and warrants” of het corrigeren van “grove nalatigheid” in “bewuste roekeloosheid?

Ik hoop dus dat berichten zoals deze vaker voorkomen, ook al bevatten ze niets nieuws. Hopelijk dringt hierdoor de boodschap door dat AI écht wat kan toevoegen in de juridische sector.

Arnoud

Wie gaat er nou zijn NDA’s in de blockchain stoppen?

Powered by AI and blockchain, het nieuwe boek van Willem Vermeend en Rian van Rijbroek? Nee, de tagline van het World NDA project van het Global Legal Blockchain Consortium, blockchainprovider Integra en AI-leverancier IBM. Het project heeft als doel “the reduction of burden, cost, and risk associated with the current NDA lifecycle”, wat kennelijk betekent dat je je geheimhoudingscontracten makkelijker beheert en overziet als je ze in de blockchain hangt. Voor mij is het duidelijk, de blockchain is nu écht een hype geworden.

Ik blijf het moeilijk door marketingreutel heen te komen, maar als ik het goed begrijp dan is het idee dat je metadata van je geheimhoudingscontracten (NDA’s) in de blockchain stopt, bijvoorbeeld de namen van partijen en de datum van tekenen. Dan kan daar achteraf geen discussie over zijn. Tevens stop je de NDA zelf in de AI van IBM, waarna die kan adviseren over hoe handig het was om die te tekenen. (“Welcome IBM, seriously” zegt NDA Lynn.)

Het kennelijke idee is dat je daar makkelijk informatie in terug kunt vinden en dat er geen discussie kan zijn over de vastgelegde zaken. Wat ik dus niet snap, is waarom dat een probleem is – ik ken weinig tot geen zaken waarbij de discussie was “hadden wij nou een NDA of niet” dan wel “stond mijn naam daar onder”. Het gaat eigenlijk altijd over de inhoud en scope – valt wat hier is gebeurd onder de NDA, en in hoeverre ben ik daar voor aansprakelijk.

En ja, het klopt dat vrijwel ieder bedrijf er een zootje van maakt in hoe ze met NDA’s omgaan. Veel meer dan andere contracten; waar een beetje service agreement nog wel netjes een approvaltraject doorgaat en wordt geadministreerd inclusief alert op het verlengmoment, heb je mazzel als iemand de getekende NDA nog terug kan vinden in zijn Sent Mail van drie jaar geleden. Het is immers een fire-and-forget documentje, je moet het tekenen en daarna kun je praten. Ik heb alleen serieuze twijfels bij het idee dat je het oplost door een nieuw administratief systeem. Als men het niet in het oude officiële systeem stopt, waarom dan wel in de AI Blockchain?

Het ligt vast aan mij maar ik begrijp niet hoe dit een oplossing is.

Arnoud

AI-lawyerbot visualiseert gebruiksvoorwaarden

Onderzoekers van de Zwitserse technische Universiteit EPFL hebben een ai-bot online gezet die gebruiksvoorwaarden leest en omzet in een overzichtelijk stroomdiagram, las ik bij Tweakers. Er is ook een chatbot-interface waarmee je vragen kunt stellen, en de bot zoekt de meest relevante zinen er dan bij. Het nut van het stroomdiagram ontgaat me, maar het idee van eenvoudiger leesbaar en bladerbaar maken van gebruiksvoorwaarden zie ik zeker wel zitten.

Het onderzoeksrapport van de Pribot en Polisis bot geeft aan dat de focus primair ligt op de privacyaspecten van de dienst. Men analyseerde zo’n 130.000 privacyverklaringen en extraheerde daaruit de tekstuele informatie, die vervolgens met een deep learning neuraal netwerk werd geanalyseerd. (Het idee dat er 130.000 privacyverklaringen op internet staan, geeft me soort van koude rillingen.)

De analyse zelf vind ik best slim opgezet. Zo wordt de onderliggende betekenis van termen geanalyseerd, zodat bijvoorbeeld “erase” en “destroy” als eenzelfde concept wordt aangemerkt. Ook werd op woordcombinatieniveau (3-grams tot 6-grams) getraind in plaats van zoals vaak op individuele woorden (bag of words). Het is me niet helemaal duidelijk hoe de training set haar labels kreeg.

De tekst wordt vervolgens op zinsniveau geclassificeerd (precies hoe mijn NDA Lynn werkt) en in een categorie gestopt. De uitkomst is een classificatie op hoog niveau waarbij men precies de tekst kan tonen die gaat over dat onderwerp, zodat je bijvoorbeeld iconen kunt tonen of een visualisatie van welke concepten waar aan de orde komen. De kwaliteit is best goed: 88% van de bevindingen komen overeen met menselijke inschatting.

Technisch is het geen ingewikkelde toepassing, de innovatie zit (zoals vaker bij legal tech) in het inzicht dat het in dit domein wat kan opleveren. Dat komt helaas nog veel te weinig voor. Een mogelijke reden daarvoor is dat je een héle grote berg data nodig hebt om de training goed te doen, en dat is in de juridische sector nog best ingewikkeld. Haal maar eens ergens 130.000 documenten over één onderwerp vandaan.

Een andere mogelijke verklaring is dat je bij een lawyerbot precies kunt zien hoe betrouwbaar ze zijn (in dit geval 88%) en dat er daarmee een heel concreet vraagteken komt te hangen bij of je erop kunt vertrouwen. Zeker omdat áls er fouten zijn, die meestal behoorlijk in het oog springen, zoals omdat de bot een zin compleet niet snapt en een mens meteen ziet wat het wel moest zijn.

Ik blijf ermee zitten hoe dat te overwinnen. Ook mensen zijn niet perfect, ik zou snel tekenen voor een jurist die iedere dag consistent 90% van de tijd foutloze documenten oplevert. Maar je merkt dat een stuk minder, en we kunnen het daarom niet zo goed beoordelen (denk ik).

Of zit er meer achten? Waarom ziet men een snelle inschatting van een ervaren privacyjurist als waardevoller dan een snelle inschatting van een AI bot als deze?

Arnoud