Wat moet ik me voorstellen bij een 91% accurate lawyerbot? #legaltechtuesday

Na de lancering van lawyerbot Lynn kreeg ik veel reacties, waarbij ik één onderwerp eruit wilde lichten: hoe zit dat met die accuratesse, wat betekent het dat Lynn 91% accuraat een document screent? Hoe meet je überhaupt “accuraat” bij een juridische screening?

Om even met het getal te beginnen: die 91% is eigenlijk de F1-score of F1-maat uit de statistiek. Deze formule zoekt een balans tussen enerzijds de precisie (het percentage werkelijk correct gelabelde clausules) en de vangst of recall (het percentage correct positief gelabelde clausules), en dat zijn dan weer twee maten die iets zeggen over de kwaliteit.

De kern is dat deze maat ongevoeliger is dan bijvoorbeeld alleen kijken naar het aantal correcte labels. Computers zijn grappig wat dat betreft: als je stuurt op “ik wil 100% correcte labels” dan krijg je één label dat correct is, dat is namelijk honderd procent. En zeg je, ik wil niets missen uit categorie X, dan wordt je hele contract als X aangemerkt want dan heb je in ieder geval niets gemist. Volgens het boekje kun je dan beter naar de F1 score kijken, dus dat doe ik dan maar.

Je kunt natuurlijk nog een stapje dieper gaan. Wat is erger, een clausule missen (overslaan, niet relevant) die buitengewoon pijnlijk was, of een clausule verkeerd labelen? Of de clausule wel herkennen maar als onschuldige variant aanmerken? En maakt het dan uit of je aansprakelijkheid miste maar het wijzigingsbeding-als-de-AVG-verandert netjes aanwees, of andersom?

Wat me daarbij opvalt is dat de zorg over fouten bij lawyerbots hoog zit bij veel mensen. En dat snap ik, want we hebben allemaal een zekere onbewuste angst voor dingen die automatisch iets doen, helemaal als dat mensachtig werk is. Wat dan precies de angst is (wat is erger) dat verschilt bij personen.

Is het een gekke gedachte dat niemand dit ooit zo verifieert bij een menselijke jurist? Die wordt ook getraind met een grote trainingset, al het werk dat hij onder begeleiding van een collega/partner uitvoert. Maar niemand die ooit vraagt, laat eens zien welke NDA’s jij de afgelopen tien jaar hebt gereviewd zodat ik weet hoe goed jij bent in het inschatten van fouten en nasty clausules. Waarom moet een AI dat dan wel kunnen laten zien? Nieuwigheid dus bewijs maar dat je beter bent?

Arnoud

Goh, lawyerbots zijn beter dan juristen in het lezen van saaie juridische documenten

Alweer ietsje langer geleden maar toch: in een ‘wedstrijd’ tussen een lawyerbot van het Israëlische LawGeex en twintig Amerikaanse advocaten bleek de eerste een stuk beter in staat om juridische fouten in NDA’s en andere documenten te vinden. Om precies te zijn: de AI was 94% accuraat waar de mensen rond de 85% scoorden. Dit is natuurlijk nieuws omdat het de eerste wedstrijd in deze soort is, maar verbaast het echt dat een computer beter dingen kan vinden in een document dan mensen?

Je kunt natuurlijk aan alle kanten vraagtekens zetten bij het onderzoek (je bent professional issue spotter of je bent het niet). Hoe definieer je accuratesse, bijvoorbeeld? Is er werkelijk een objectieve gouden standaard van ‘fouten’ in een contract, of is dat wezenlijk een subjectieve inschatting waar twee juristen legitiem andere opvattingen over kunnen hebben bij dezelfde casus? Als ik iets laat staan omdat ik weet dat het praktisch gezien nooit speelt, en de AI het als fout signaleert omdat het volgens een rechtenprof in strijd is met de wet, wie heeft er dan gelijk?

Belangrijker voor mij (en de reden dat ik het eigenlijk negeerde, maar ik kreeg diverse mails erover) is echter dat dit onderzoek niets aantoont dat we niet al wisten. Een computer is haast per definitie altijd beter in het herkennen van patronen dan mensen, zeker als het steeds dezelfde soort patronen zijn over de lange termijn. Dat is bij het herkennen van vuurwapens in bagage niet anders dan het herkennen van rare clausules in juridische documenten.

Toegegeven, het bóuwen van zulke herkensoftware is niet eenvoudig. Hoe herken je effectief een juridische clausule in al zijn variaties, inclusief raar taalgebruik en fouten die al dan niet opzettelijk zijn gemaakt? Maar als het eenmaal staat, dan is het volgens mij volstrekt evident dat die het gaat winnen van iedere mens die in dat domein gaat opereren. Geen douanebeambte die een jaar lang ieder verboden artikel in bagage herkent, maar een computer gaat met dezelfde kwaliteit door totdat de stroom eraf gaat.

Dat is geen nieuws maar ook totaal niet erg – dit noemen we automatiseren van standaardwerk en het is precies waar AI binnen de legal tech voor bedoeld is. Het kan niet waar zijn dat we mensen werk willen laten doen dat net zo goed door robots gedaan kan worden. Binnen de juridische sector gebeurt dat echter veel en vaak, en hoe meer ik er over nadenk hoe raarder ik het vind. Er van dromen een vlammend pleidooi in de rechtbank te geven of keihard te onderhandelen en die droomdeal te sluiten, dat zie ik wel. Maar welke rechtenstudent droomt ervan contracten na te lopen op al dan niet onjuist gebruik van “represents and warrants” of het corrigeren van “grove nalatigheid” in “bewuste roekeloosheid?

Ik hoop dus dat berichten zoals deze vaker voorkomen, ook al bevatten ze niets nieuws. Hopelijk dringt hierdoor de boodschap door dat AI écht wat kan toevoegen in de juridische sector.

Arnoud