Na de lancering van lawyerbot Lynn kreeg ik veel reacties, waarbij ik één onderwerp eruit wilde lichten: hoe zit dat met die accuratesse, wat betekent het dat Lynn 91% accuraat een document screent? Hoe meet je überhaupt “accuraat” bij een juridische screening?
Om even met het getal te beginnen: die 91% is eigenlijk de F1-score of F1-maat uit de statistiek. Deze formule zoekt een balans tussen enerzijds de precisie (het percentage werkelijk correct gelabelde clausules) en de vangst of recall (het percentage correct positief gelabelde clausules), en dat zijn dan weer twee maten die iets zeggen over de kwaliteit.
De kern is dat deze maat ongevoeliger is dan bijvoorbeeld alleen kijken naar het aantal correcte labels. Computers zijn grappig wat dat betreft: als je stuurt op “ik wil 100% correcte labels” dan krijg je één label dat correct is, dat is namelijk honderd procent. En zeg je, ik wil niets missen uit categorie X, dan wordt je hele contract als X aangemerkt want dan heb je in ieder geval niets gemist. Volgens het boekje kun je dan beter naar de F1 score kijken, dus dat doe ik dan maar.
Je kunt natuurlijk nog een stapje dieper gaan. Wat is erger, een clausule missen (overslaan, niet relevant) die buitengewoon pijnlijk was, of een clausule verkeerd labelen? Of de clausule wel herkennen maar als onschuldige variant aanmerken? En maakt het dan uit of je aansprakelijkheid miste maar het wijzigingsbeding-als-de-AVG-verandert netjes aanwees, of andersom?
Wat me daarbij opvalt is dat de zorg over fouten bij lawyerbots hoog zit bij veel mensen. En dat snap ik, want we hebben allemaal een zekere onbewuste angst voor dingen die automatisch iets doen, helemaal als dat mensachtig werk is. Wat dan precies de angst is (wat is erger) dat verschilt bij personen.
Is het een gekke gedachte dat niemand dit ooit zo verifieert bij een menselijke jurist? Die wordt ook getraind met een grote trainingset, al het werk dat hij onder begeleiding van een collega/partner uitvoert. Maar niemand die ooit vraagt, laat eens zien welke NDA’s jij de afgelopen tien jaar hebt gereviewd zodat ik weet hoe goed jij bent in het inschatten van fouten en nasty clausules. Waarom moet een AI dat dan wel kunnen laten zien? Nieuwigheid dus bewijs maar dat je beter bent?
Arnoud