Goh, lawyerbots zijn beter dan juristen in het lezen van saaie juridische documenten

Alweer ietsje langer geleden maar toch: in een ‘wedstrijd’ tussen een lawyerbot van het Israëlische LawGeex en twintig Amerikaanse advocaten bleek de eerste een stuk beter in staat om juridische fouten in NDA’s en andere documenten te vinden. Om precies te zijn: de AI was 94% accuraat waar de mensen rond de 85% scoorden. Dit is natuurlijk nieuws omdat het de eerste wedstrijd in deze soort is, maar verbaast het echt dat een computer beter dingen kan vinden in een document dan mensen?

Je kunt natuurlijk aan alle kanten vraagtekens zetten bij het onderzoek (je bent professional issue spotter of je bent het niet). Hoe definieer je accuratesse, bijvoorbeeld? Is er werkelijk een objectieve gouden standaard van ‘fouten’ in een contract, of is dat wezenlijk een subjectieve inschatting waar twee juristen legitiem andere opvattingen over kunnen hebben bij dezelfde casus? Als ik iets laat staan omdat ik weet dat het praktisch gezien nooit speelt, en de AI het als fout signaleert omdat het volgens een rechtenprof in strijd is met de wet, wie heeft er dan gelijk?

Belangrijker voor mij (en de reden dat ik het eigenlijk negeerde, maar ik kreeg diverse mails erover) is echter dat dit onderzoek niets aantoont dat we niet al wisten. Een computer is haast per definitie altijd beter in het herkennen van patronen dan mensen, zeker als het steeds dezelfde soort patronen zijn over de lange termijn. Dat is bij het herkennen van vuurwapens in bagage niet anders dan het herkennen van rare clausules in juridische documenten.

Toegegeven, het bóuwen van zulke herkensoftware is niet eenvoudig. Hoe herken je effectief een juridische clausule in al zijn variaties, inclusief raar taalgebruik en fouten die al dan niet opzettelijk zijn gemaakt? Maar als het eenmaal staat, dan is het volgens mij volstrekt evident dat die het gaat winnen van iedere mens die in dat domein gaat opereren. Geen douanebeambte die een jaar lang ieder verboden artikel in bagage herkent, maar een computer gaat met dezelfde kwaliteit door totdat de stroom eraf gaat.

Dat is geen nieuws maar ook totaal niet erg – dit noemen we automatiseren van standaardwerk en het is precies waar AI binnen de legal tech voor bedoeld is. Het kan niet waar zijn dat we mensen werk willen laten doen dat net zo goed door robots gedaan kan worden. Binnen de juridische sector gebeurt dat echter veel en vaak, en hoe meer ik er over nadenk hoe raarder ik het vind. Er van dromen een vlammend pleidooi in de rechtbank te geven of keihard te onderhandelen en die droomdeal te sluiten, dat zie ik wel. Maar welke rechtenstudent droomt ervan contracten na te lopen op al dan niet onjuist gebruik van “represents and warrants” of het corrigeren van “grove nalatigheid” in “bewuste roekeloosheid?

Ik hoop dus dat berichten zoals deze vaker voorkomen, ook al bevatten ze niets nieuws. Hopelijk dringt hierdoor de boodschap door dat AI écht wat kan toevoegen in de juridische sector.

Arnoud

Hoe terecht is de kritiek op legal tech vanuit de juridische sector?

Legal tech proponenten doen er goed aan lering te trekken uit het Theranos debacle, las ik bij Above The Law. Dat bedrijf heeft een serieus probleem nu de Amerikaanse SEC haar beweerdelijk innovatieve technologie voor niet-invasief bloedonderzoek serieus betwist – nog lang niet klaar voor de markt. Maar lange tijd kwam men ermee weg, omdat niemand durfde die kritiek te leveren. En dit zou dan ook gelden voor veel legal tech aanbieders, die ook veel te veel beloven terwijl ze nog lang niet klaar zijn, waarna kritiek wordt weggewuifd als afkomstig van fossielen die niet willen veranderen.

Voor wie de techsector kent, komt deze omschrijving niet als verrassing. De term vaporware is hier letterlijk uitgevonden voor grote beloftes die in de toekomst wellicht waargemaakt worden, en niet alleen om de concurrent de pas af te snijden. Dus dat we dat fenomeen in de legal tech sector terugzien, is niet vreemd. Maar het valt mij inderdaad ook wel op dat het in deze sector allemaal net wat erger lijkt.

Wat vast niet meehelpt, is dat juristen getraind zijn om problemen te zoeken in nieuwe dingen. Dat is immers je werk, een klant komt met een vraag en aan jou de taak te voorzien waar het mis zal gaan en hoe hem in te dekken. Professional issue spotters, zoals ik het bij 3 Geeks and a Law blog genoemd zag worden. En omdat het hier dan ook nog eens gaat om een nieuw ding dat je éigen werk aangaat, dat werk waar je zo goed in bent én dat cruciaal is voor je klant, dan gaat het extra hard met de bezorgdheid.

Dat was geen sarcasme overigens; juridische kwesties kennen écht grote risico’s en die onderkennen en vermijden is waar je als jurist de hele dag mee bezig bent. Natuurlijk zien mensen in andere sectoren dat anders (met als ultieme uitingsvorm het contract gemaild om 16:45 met “we willen vandaag tekenen dus alleen de dealbreakers graag”), maar dat terzijde. Het is gewoon moeilijk en risicovol werk dat alleen gedaan kan worden door slimme professionals. Zoals 3G&LB het zeggen:

The lawyer theory of value tends towards the transactional and discrete. Resources (lawyer time) allocated to sequential, individual legal tasks: this question, this contract, this motion. Systems thinking and relative reductions in demand for legal labor (prevention, Lean, #DoLessLaw) are ancillary concerns to be addressed when convenient or absolutely necessary (that is to say rarely). Given their lawyer-on-task orientation, ask most lawyers what they need to be more effective, and the first answer is more time in their own day. The second answer is more time from other skilled lawyers they already work with. (…)

Kort samengevat: wat juristerij nodig heeft, is slimme mensen die hard werken. “Stand back and let me lawyer”. Legal tech wordt vaak in eerste instantie gepresenteerd als een tool waarmee slimme mensen harder kunnen werken, en dat is natuurlijk aantrekkelijk. Maar al gauw blijkt dat dit neerkomt op ánders werken. En dat is dan weer bedreigend, en dat kan een ervaren jurist je in alle detail heel precies uitleggen. (Nogmaals, geen sarcasme, er staan gewoon grote belangen op het spel.)

De belangrijkste factor is dat het tijd kost om te veranderen, en die tijd is schaars. Daarnaast speelt een belangrijke rol dat je als jurist niet vooraf weet hoe de verandering uit gaat pakken, en dat weet je wel van de huidige situatie. Dat geeft weinig prikkel om te veranderen. Als dan ook nog eens blijkt dat zo’n legal tech oplossing niet staat als een huis (en geloof me, een beetje jurist loopt de Grote Boze Wolf er binnen de seconde uit), dan houdt het snel op natuurlijk.

Waarmee ik niet wil zeggen dat legal tech kansloos is, of juristen te pessimistisch. Ik zie een samenspel van krachten die elkaar afstoten, waardoor er maar heel moeilijk beweging te krijgen is de goede kant op. Ik vraag me af hoe dat zich gaat oplossen.

Arnoud

Artificial intelligence is eigenlijk gewoon maar mensenwerk

Het stiekeme verhaal achter artificial intelligence: eigenlijk drijft het volledig op mensenkracht, aldus de Indian Express. Al die AI-systemen moeten leren wat wat is, en daarvoor is vooralsnog een heleboel mensenkracht nodig: in foto’s omcirkelen wat een chihuahua is en wat een muffin, teksten labelen als positief of negatief of aangeven of een actie terecht genomen is. Al dit labelen of taggen blijkt een steeds groter deel van thuiswerken en extra inkomsten in landen als India of Venezuela te worden. Interessant weetje of essentieel voor de toekomst van AI?

Artificial intelligence of iets specifieker machine learning is het vakgebied waarbij een computer op basis van een heleboel voorbeelden leert algemene regels te formuleren en daarmee weer conclusies te trekken. Dit is te onderscheiden in twee categorieën, supervised en unsupervised, waarbij het supervised learning momenteel het populairst is. Hierbij geef je de computer een hoop geclassificeerde voorbeelden (goed/fout, hond/cake, tumor/gezwel, rood/oranje/groen) waarna hij gaat zoeken naar onderscheidende kenmerken. Op basis van die kenmerken kan hij dan nieuwe voorbeelden interpreteren en daar een uitspraak over doen.

Er zijn ook andere manieren om van data te leren. Bij unsupervised learning verzint de computer zelf combinaties en clusters. Je hebt dan geen labels meer nodig. Nadeel is dan weer wel dat je niet op voorhand kunt inprogrammeren wat met welke cluster moet gebeuren – je weet immers niet wat er precies in zit.

Het is natuurlijk een gigantische berg werk om al die labeltjes in te typen, dus het verrast me niet dat dat massaal wordt uitbesteed aan lagelonenwerkers. Per labeltje betaalt het natuurlijk erg weinig, maar als je een paar dagen stevig doorwerkt dan kan het toch een leuke extra inkomstenbron zijn. En het lijkt betrouwbaarder dan oude publieke datasets gebruiken waar ik recent over blogde.

Maar het houdt natuurlijk wel een stevig risico in dat de toegevoegde labels toch een bepaalde onderliggende bias bevatten, hét grote probleem bij machine learning. Want mensen die je zo min mogelijk geld betaalt, hebben vooral een stimulus om zo veel mogelijk labels te plakken in plaats van de kwaliteit zo hoog mogelijk te krijgen. Dat lijkt me een fundamentele zorg bij het gebruik van dit soort systemen. Het is natuurlijk voor een deel op te lossen, bijvoorbeeld door meerdere mensen dezelfde data te laten labelen en alleen identieke labels te gebruiken, maar ideaal is ook dat niet.

Arnoud

Hoe kunnen we transparantie toevoegen aan besluitvormende algoritmen?

Bestuursrecht en bestuursrechtspraak zijn onvoldoende in staat om ketenbesluiten te toetsen omdat onbekend is hoe een beslisregel exact is opgebouwd en tot welke resultaten deze leidt. Dat las ik in juristenblad NJB. Steeds meer beslisregels en algoritmes worden ingezet om tot formele besluitvorming te komen, maar daarbij is volstrekt onduidelijk hoe dat besluit tot standkomt. Dit op gezag van Marlies van Eck die promoveerde op dit probleem. En ja, dat is een groot probleem want juist bij juridische besluitvorming wil je weten hoe men tot de conclusie is gekomen.

Toevallig las ik vorige week ook nog een Amerikaans artikel waarin wordt voorgesteld een Algorithmic Impact Assessment in te voeren, vergelijkbaar met de milieuimpactanalyse die in de VS al verplicht is. Het doel van een AIA is het begrijpelijk maken van de besluitvorming (bij overheidsinstanties). Dit kent vier aspecten:

First, it would require any government agency that wants to use an algorithm to publish a description of the system and its potential impact. Second, agencies would give external researchers access to the system so they can study it. Third, it would require agencies to publish an evaluation of how the algorithm will affect the public and how it plans to address any biases or problems. And lastly, an AIA would require the agency to create a system for regular people to hold agencies accountable when they fail to disclose important pieces of information about an algorithm.

Deze eisen klinken zeer redelijk, maar het zijn behoorlijk pittige voorwaarden om als bedrijf aan te voldoen. Zeker omdat de techbedrijven die deze AI’s leveren, de werking van hun systemen als een onschatbaar waardevol handelsgeheim zien en daar dus geen inzicht in zullen willen geven. Dat geeft een patstelling: zonder disclosure geen mogelijkheid om te toetsen wat eruit komt, maar met disclosure geen bereidheid het systeem in te zetten voor de publieke taak.

Ik ben er nog niet uit hoe dat dilemma op te lossen. Dat Amerikaans artikel zegt dat het juist een prikkel tot innovatie geeft om een fairder systeem te ontwikkelen. Als je wel moet om überhaupt te mogen leveren, dan wordt het ineens een kans. Klinkt leuk, maar waarom zouden bedrijven die nu hun AI geheim houden dan ineens een open, transparant systeem opzetten?

Arnoud

Wie gaat er nou zijn NDA’s in de blockchain stoppen?

Powered by AI and blockchain, het nieuwe boek van Willem Vermeend en Rian van Rijbroek? Nee, de tagline van het World NDA project van het Global Legal Blockchain Consortium, blockchainprovider Integra en AI-leverancier IBM. Het project heeft als doel “the reduction of burden, cost, and risk associated with the current NDA lifecycle”, wat kennelijk betekent dat je je geheimhoudingscontracten makkelijker beheert en overziet als je ze in de blockchain hangt. Voor mij is het duidelijk, de blockchain is nu écht een hype geworden.

Ik blijf het moeilijk door marketingreutel heen te komen, maar als ik het goed begrijp dan is het idee dat je metadata van je geheimhoudingscontracten (NDA’s) in de blockchain stopt, bijvoorbeeld de namen van partijen en de datum van tekenen. Dan kan daar achteraf geen discussie over zijn. Tevens stop je de NDA zelf in de AI van IBM, waarna die kan adviseren over hoe handig het was om die te tekenen. (“Welcome IBM, seriously” zegt NDA Lynn.)

Het kennelijke idee is dat je daar makkelijk informatie in terug kunt vinden en dat er geen discussie kan zijn over de vastgelegde zaken. Wat ik dus niet snap, is waarom dat een probleem is – ik ken weinig tot geen zaken waarbij de discussie was “hadden wij nou een NDA of niet” dan wel “stond mijn naam daar onder”. Het gaat eigenlijk altijd over de inhoud en scope – valt wat hier is gebeurd onder de NDA, en in hoeverre ben ik daar voor aansprakelijk.

En ja, het klopt dat vrijwel ieder bedrijf er een zootje van maakt in hoe ze met NDA’s omgaan. Veel meer dan andere contracten; waar een beetje service agreement nog wel netjes een approvaltraject doorgaat en wordt geadministreerd inclusief alert op het verlengmoment, heb je mazzel als iemand de getekende NDA nog terug kan vinden in zijn Sent Mail van drie jaar geleden. Het is immers een fire-and-forget documentje, je moet het tekenen en daarna kun je praten. Ik heb alleen serieuze twijfels bij het idee dat je het oplost door een nieuw administratief systeem. Als men het niet in het oude officiële systeem stopt, waarom dan wel in de AI Blockchain?

Het ligt vast aan mij maar ik begrijp niet hoe dit een oplossing is.

Arnoud

Worden advocaten ooit door robots vervangen?

“Siri, maak een exclusieve licentieovereenkomst in dossier X.” Dat las ik bij IE-Forum als quote uit de speech van professor Bernd Hugenholtz over de opkomst van de robot-advocaat. Hij gelooft er geen bal van; een goede mens-advocaat heeft immers onmiskenbaar kwaliteiten zoals door de juridisch bomen het bos kunnen zien, goed kunnen onderhandelen en zelfs zo nu en dan fungeren als uithuilpaal. Allemaal kwaliteiten die de robo-advocaat ontbeert. Dat klopt helemaal maar het staat natuurlijk volkomen los van wat de robot-advocaat gaat doen en waarom dat het werk van de mens-advocaat (of mens-jurist, zo u wilt) gaat veranderen.

Ik heb het al vaker geschreven: robots gaan niet in de rechtbank staan pleiten, creatieve vernieuwende argumenten inbrengen om zaken te winnen of out-of-the-box oplossingen verzinnen om een geschil vlot te trekken. En al helemaal niet empathisch op de cliënt reageren zodat deze begrip krijgt voor dat nare vonnis of de beslissing niet in hoger beroep te gaan. Dat zijn zulke menselijke eigenschappen dat ze niet te automatiseren zijn.

Robotadvocaten gaan we dus niet krijgen. Maar robots gaan wel degelijk werk wegsnoepen van de mensadvocaten, namelijk het standaardwerk, de simpele checks zoals due diligence, een snelle review van standaarddocumenten of een voorselectie. En dat kan er nog best inhakken want véél van het juridische werk is dat soort standaardwerk. (En dan bedoel ik niet alleen de expertsystemen zoals Hugenholtz schetst, een AI die een voorselectie of due diligence doet is wel iets meer dan “maak even een contractje”.)

Zorgen maak ik me daar niet meteen over, want uiteindelijk is er in de juridische sector werk genoeg en zal de vrijgekomen tijd van dat standaardwerk zonder problemen met nieuwe dingen kunnen worden ingevuld. Die robotadvocaat zou je dus eigenlijk met open armen willen verwelkomen, in plaats van te brommen dat hij nooit een cliënt zal laten uithuilen om een onterecht verloren zaak of te kostbare procedure.

Toch hoor ik deze geluiden vaker, en ik blijf zoeken naar de verklaring. Is het ongeloof dat deze technologie dit kan? Of de afkeer van opgeblazen hype (die trouwens binnenkort instort)? Of gewoon de algemene moeilijkheid om verandering te accepteren?

Over die verandermoeilijkheden las ik recent een zeer interessant artikel bij de 3 Geeks and a Law blog (sowieso een dikke aanrader). Als artsen decennialang weigerden hun handen te wassen nadat onbetwistbaar vaststond dat dat de gezondheid ten goede zou komen, en een dorp steeds maar ziek blijft omdat ze hun water niet willen koken, waarom zouden wij juristen dan ineens wél besluiten iets nieuws te gaan doen enkel omdat er de belofte is dat het beter gaat worden allemaal?

The boiling water anecdote demonstrates those systems at work while also illuminating the curse of knowledge. The curse of ignorance is that we don’t know what we don’t know and therefore labor under delusions of adequacy. The curse of knowledge is that once we know something, it is hard to imagine not knowing it. The resulting mistakes about shared assumptions can be invisible barriers to change. Those unrecognized barriers are why, with boiling water, the change only occurred among a small set of outliers.

Misschien dat daar nog een speciaal stuk attitude van juristen meespeelt: wij hebben meer dan andere beroepsgroepen de overtuiging dat we keihard en foutloos moeten werken aan heel belangrijke zaken. Koppel dat aan een sterk gevoel van autonomie en korte deadlines en je krijgt een bovengemiddeld hoge weerstand tegen verandering. Dat maakt het natuurlijk niet makkelijker.

Arnoud

AI-lawyerbot visualiseert gebruiksvoorwaarden

Onderzoekers van de Zwitserse technische Universiteit EPFL hebben een ai-bot online gezet die gebruiksvoorwaarden leest en omzet in een overzichtelijk stroomdiagram, las ik bij Tweakers. Er is ook een chatbot-interface waarmee je vragen kunt stellen, en de bot zoekt de meest relevante zinen er dan bij. Het nut van het stroomdiagram ontgaat me, maar het idee van eenvoudiger leesbaar en bladerbaar maken van gebruiksvoorwaarden zie ik zeker wel zitten.

Het onderzoeksrapport van de Pribot en Polisis bot geeft aan dat de focus primair ligt op de privacyaspecten van de dienst. Men analyseerde zo’n 130.000 privacyverklaringen en extraheerde daaruit de tekstuele informatie, die vervolgens met een deep learning neuraal netwerk werd geanalyseerd. (Het idee dat er 130.000 privacyverklaringen op internet staan, geeft me soort van koude rillingen.)

De analyse zelf vind ik best slim opgezet. Zo wordt de onderliggende betekenis van termen geanalyseerd, zodat bijvoorbeeld “erase” en “destroy” als eenzelfde concept wordt aangemerkt. Ook werd op woordcombinatieniveau (3-grams tot 6-grams) getraind in plaats van zoals vaak op individuele woorden (bag of words). Het is me niet helemaal duidelijk hoe de training set haar labels kreeg.

De tekst wordt vervolgens op zinsniveau geclassificeerd (precies hoe mijn NDA Lynn werkt) en in een categorie gestopt. De uitkomst is een classificatie op hoog niveau waarbij men precies de tekst kan tonen die gaat over dat onderwerp, zodat je bijvoorbeeld iconen kunt tonen of een visualisatie van welke concepten waar aan de orde komen. De kwaliteit is best goed: 88% van de bevindingen komen overeen met menselijke inschatting.

Technisch is het geen ingewikkelde toepassing, de innovatie zit (zoals vaker bij legal tech) in het inzicht dat het in dit domein wat kan opleveren. Dat komt helaas nog veel te weinig voor. Een mogelijke reden daarvoor is dat je een héle grote berg data nodig hebt om de training goed te doen, en dat is in de juridische sector nog best ingewikkeld. Haal maar eens ergens 130.000 documenten over één onderwerp vandaan.

Een andere mogelijke verklaring is dat je bij een lawyerbot precies kunt zien hoe betrouwbaar ze zijn (in dit geval 88%) en dat er daarmee een heel concreet vraagteken komt te hangen bij of je erop kunt vertrouwen. Zeker omdat áls er fouten zijn, die meestal behoorlijk in het oog springen, zoals omdat de bot een zin compleet niet snapt en een mens meteen ziet wat het wel moest zijn.

Ik blijf ermee zitten hoe dat te overwinnen. Ook mensen zijn niet perfect, ik zou snel tekenen voor een jurist die iedere dag consistent 90% van de tijd foutloze documenten oplevert. Maar je merkt dat een stuk minder, en we kunnen het daarom niet zo goed beoordelen (denk ik).

Of zit er meer achten? Waarom ziet men een snelle inschatting van een ervaren privacyjurist als waardevoller dan een snelle inschatting van een AI bot als deze?

Arnoud

AI net zo goed als willekeurige mensen in het voorspellen van recidive

AI-software blijkt net zo goed als een groep willekeurige mensen in het voorspellen van recidive bij Amerikaanse veroordeelden, las ik bij Ars Technica. Onderzoekers van Dartmouth College vergeleken de uitkomsten van de COMPAS software (die met machine learning technieken recidive probeert te voorspellen) met de inschatting van willekeurige mensen geworven via Amazon’s Mechanical Turk. Beiden bleken ongeveer even accuraat (65 en 62% respectievelijk), opmerkelijk genoeg inclusief de vooringenomenheid die eerder bij de software tot controverse leidde.

De COMPAS software (Correctional Offender Management Profiling for Alternative Sanctions) berekent op basis van een hele berg factoren de kans dat een bepaald persoon in recidive zou vervallen. Deze uitkomst wordt in Californië meegenomen in het besluit welke straf aan een veroordeelde op te leggen. In 2016 bleek uit onderzoek dat de software enige bias oftewel vooringenomenheid vertoonde, namelijk dat gekleurde mensen vaker ten onrechte als recidivist werden gesignaleerd en witte juist vaker ten onrechte als géén recidivist.

Accuratesse in AI en machine learning is een heel lastig onderwerp. Wat betekent het dat je software 94,1% nauwkeurig is (de huidige score van mijn NDA Lynn geheimhoudingscontractenanalyserobot)? Meestal wordt ermee bedoeld dat in 94,1% van de gevallen de uitkomst van de AI gelijk is aan de verwachte of correcte uitkomst. En 5,9% van de gevallen is dus onjuist. Maar dat kan twee kanten op:

  1. Vals positief: een uitkomst wordt als positief (juist) aangemerkt, maar is eigenlijk negatief (onjuist). Bij de COMPAS software dus dat iemand recidivist zou zijn terwijl hij dat niet is.
  2. Vals negatief: een uitkomst wordt als negatief (onjuist) aangemerkt, maar is eigenlijk positief (juist). Bij COMPAS dus dat iemand recidive pleegt terwijl de software voorspelde dat hij dat niet zou doen.

Beide onjuiste uitkomsten zijn onwenselijk, maar om verschillende redenen. Een vals positief zorgt ervoor dat je meer energie in iemand steekt dan nodig is: je gaat iemand langer opsluiten of intensiever begeleiden om recidive te voorkomen terwijl dat helemaal niet speelt. En een vals negatief kost je meer achteraf, je hebt immers een nieuw misdrijf van die recidivist en dat had je nu net willen voorkomen.

Het is niet goed mogelijk beiden tegelijk te minimaliseren. Vaak zie je dat wanneer je de één in aantallen terugdringt, de ander groter wordt. Je kunt bijvoorbeeld eerder concluderen dat mensen recidive zullen plegen, waardoor je de vals negatieven vermindert. Er worden immers minder mensen vrijgelaten die recidivist blijken. Maar je hebt nu wel meer mensen ten onrechte als recidivist aangemerkt. En omgekeerd zou precies hetzelfde gebeuren, als je strenger bent in je beoordeling zul je minder mensen ten onrechte als recidivist aanmerken, maar daardoor ook eerder recidivisten laten gaan.

De kritiek op de COMPAS software richtte zich natuurlijk op de bias die de valse uitkomsten zou baseren op etnische afkomst. De vergelijking met gewone mensen laat nu zien dat dit niet perse de oorzaak is. Deze kregen namelijk de gegevens zónder indicatie van etnische afkomst, en gaven grofweg dezelfde voorspelling over recidive. Inclusief een hogere vals positief bij gekleurde mensen en een hogere vals negatief bij witte mensen. Dat zou dan eerder de conclusie rechtvaardigen dat die software er ook maar een gooi naar doet. Geen bias dus maar ook geen inhoudelijke analyse.

Arnoud

De eerste robotrechter van Nederland blijkt gewoon al actief

‘Robotrechter e-Court is een groot en niet transparant zwart gat’, kopte Nieuwsuur onlangs tendentieus. Stichting e-Court is al jaren actief als alternatieve geschilbeslechter en heeft verzekeraars gevonden als bereidwillige afnemers voor haar digitale arbitragedienst. Snel en gemakkelijk maar controversieel. Opmerkelijk voor mij daarin: de eerste stap is een artificial intelligence die over je zaak oordeelt. Mag dat zomaar?

Op zich is wat e-Court doet een legitieme constructie. Men biedt arbitrage aan, alternatieve geschilbeslechting buiten de rechter om. Dat mag, en kan voor beide partijen voordelig zijn: sneller en goedkoper, en je kunt de procedures optimaliseren voor jouw soort geschil in plaats zoals bij de traditionele rechtspraak een middelmaat omdat men alles aan moet kunnen. Digitale dossiers en on-line voortgang en uitwisselen van stukken lukt daar iets minder.

De controverse rond e-Court komt voornamelijk vanwege het feit dat mensen zonder het te beseffen akkoord gaan met arbitrage; dat staat namelijk zo in de algemene voorwaarden van met name zorgverzekeraars. Op zich legaal, zij het dat je bij start van een geschil bij de arbiter een maand moet krijgen om daar bezwaar tegen te maken. Daar lijkt het volgens het onderzoek vaak mis te gaan: het wordt bepaald onduidelijk uitgelegd, en ook wie dat bezwaar maakt, kan zomaar alsnog door de molen van e-Court gehaald worden en krijgt toch een arbitraal vonnis tegen zich, dat via de deurwaarder ten uitvoer kan worden gelegd. Dat klopt natuurlijk niet.

Voor mij sprong deze alinea eruit:

[Oprichtster Henriëtte Nakad] nam het heft in eigen hand, zette een bedrijf op en liet een computerprogramma bouwen dat automatisch vonnissen kan produceren. Die ‘robotrechter’ is ‘de meest objectieve rechter van Nederland’, zonder ‘misplaatste empathie’, schreef Nakad in een academisch artikel.

Dat academisch artikel laat zien dat het gaat om een Case-Based-Reasoning (CBR) kunstmatige intelligentie: nieuwe zaken worden op allerlei punten vergeleken met eerder zaken, en de uitspraak wordt bepaald aan de hand van die gelijkenis. Kort gezegd, als een zaak veel lijkt op 100 afgewezen incassozaken, dan wordt deze incassoclaim ook afgewezen. Ook wordt een heel raamwerk opgezet om de formele processtappen consequent uit te voeren.

Helaas kan ik nergens iets vinden over hoe deze AI inhoudelijk werkt. En dat is jammer want bij zo’n grote legal tech innovatie zou je toch graag willen weten hoe het werkt. Zeker omdat het hier gaat over vonnissen die mensen heel diep kunnen raken: de schuldenproblematiek in Nederland is hoog en complex, en black box uitspraken waar mensen zich door overvallen voelen, helpen daar natuurlijk niet bij. De keuze voor een AI snap ik wel, het is een hoog volume aan relatief simpele zaken en daar is met AI goede analyse op te doen.

Formeel is het overigens geen robot die beslist. Het is een voorbeeld van hoe AI een rol kan spelen in juridische besluitvorming. Vang de simpele gevallen af, en laat de rest (inclusief de gevallen waar men piept) door een mens behandelen. Alleen veronderstelt dat wel dat mensen piepen als er iets mis is, en specifiek bij consumentenrecht / schuldenincasso is dat iets dat heel vaak misgaat.

Het bedrijf reageert in een persbericht kort gezegd dat ook schuldenaars beter af zijn, omdat de procedure ook voor hen sneller en goedkoper uitpakt. Ik heb daar wel moeite mee, want juist dit onderwerp voelt voor veel schuldenaars als zeer machteloosmakend en ongrijpbaar. Dus als je dan óók nog eens alles achter een digitale procedure stopt én je hoort dat er een robot de eerste selectie maakt, dan is het argument dat je minder incassokosten krijgt en dat de deurwaarder heus luistert, niet meer relevant. Mensen vertrouwen robots niet in een dienstverlenende rol, laat staan als die over hun geld en goed beslist.

Algemeen heb ik er een dubbel gevoel bij. Het initiatief is nobel, want de rechtspraak ís verstopt en veel dingen kunnen gewoon efficiënter als je maatwerk toepast en niet alles op dezelfde manier behandelt. Maar de afwezigheid van transparantie vind ik moeilijk te verkroppen, helemaal omdat een AI in rechtspraak gewoon heel gevoelig ligt. En als je dan ook nog eens het primair opzet om schuldincasso te doen – waar notoir vaak mensen in de molen vermalen worden – dan krijg ik er een vervelend gevoel bij. Je ziet dat nu ook terug in de berichtgeving, dat het een “robotrechter” is die je blind veroordeelt. Niet goed voor de beeldvorming van legal tech en AI in de juridische sector. Dus nee, jammer.

Arnoud

Hoe ethisch verantwoord kan een AI of robot zijn?

Toen ik tien of elf was, kocht ik mijn eerste boek van SF-schrijver Isaac Asimov. Wat ik me er vooral nog van herinnerde, waren de vele korte verhalen over zijn Drie Wetten van de Robotica: een robot mag een mens geen kwaad doen, een robot moet doen wat de mens zegt tenzij daarmee wet 1 wordt overtreden en een robot moet zichzelf beschermen tenzij dat in strijd blijkt met wetten 1 of 2. Hele mooie ethische principes, en je ziet ze dan ook steeds terugkomen in discussies over ethiek bij robotica en kunstmatige intelligentie. Maar ik zie het zo even niet werken.

Het idee dat robots en/of kunstmatig intelligente systemen in onze samenleving mee gaan draaien, krijgt steeds meer overtuiging in de maatschappij. Voor een deel is dat een hype, maar er zit zeker een kern van waarheid in de verwachting dat dergelijke systemen een vast onderdeel worden van productie en dienstverlening, en ook wel vanuit de overheid.

De manier waarop deze systemen handelen en vooral beslissen roept dan vragen op, verloopt dat wel ethisch verantwoord. Je beslissing kunnen motiveren is daarbij één ding, maar een veelgehoorde eis is ook dat zo’n beslissing rechtmatig en verantwoord is. Horen dat je geen lening krijgt omdat je moslim bent, is een inhoudelijk duidelijke motivatie maar natuurlijk een onacceptabele.

Een dergelijk beslissysteem moet dus een set ethische randvoorwaarden en wettelijke grenzen ingebouwd krijgen. Alleen, hoe doe je dat? Haast per definitie zijn ethische principes algemeen en weinig vastomlijnd, maar ook wettelijke regels (zoals de AVG, die zo’n leningweigering verbiedt omdat sprake is van profilering op een bijzonder persoonsgegeven) zijn moeilijk in automatisering te vatten.

Een interessant initiatief is het Ethics for AI project van de Oxford University. Zij bekeken allerlei ethische codes, en kwamen toen met de conclusie

The very idea of parcelling ethics into a formal ‘code’ is also dangerous, if it leads to the attitude that ethics itself is just some separate part of life and of activities; it’s not. It’s more meaningfully looked at as a part and parcel of how we live, individually and collectively. So it would be unfortunate indeed, if the presence of a code of ethics encouraged the view that you could do the ethics, and then get on with life, get on with the job.

Het idee dat je ethiek kunt inprogrammeren in een systeem zie ik ook als een waangedachte. Het is geen functionele eis dat iets ethisch moet zijn, je kunt niet werken op basis van een lijst ethische randvoorwaarden. Het is natuurlijk mooi dat je een voorwaarde vanuit ethisch standpunt kunt rechtvaardigen, maar dat is zeer zeker geen garantie dat je systeem ethisch verantwoord werkt.

Ik vrees dat we er niet aan ontkomen om te zeggen, AI en robotica zal miskleunen slaan, dingen doen die ethisch onverantwoord zijn. Daar komen dan bezwaren tegen, en die worden in nieuwe systemen opgelost. Maar het blijft lapmiddelen en gedeeltelijke oplossingen die het probleem voor nu uit de weg gaan, en het zal nooit een fundamentele oplossing zijn waardoor onethische beslissingen onmogelijk worden.

Arnoud