Na de lancering van lawyerbot Lynn kreeg ik veel reacties, waarbij ik één onderwerp eruit wilde lichten: hoe zit dat met die accuratesse, wat betekent het dat Lynn 91% accuraat een document screent? Hoe meet je überhaupt “accuraat” bij een juridische screening?
Om even met het getal te beginnen: die 91% is eigenlijk de F1-score of F1-maat uit de statistiek. Deze formule zoekt een balans tussen enerzijds de precisie (het percentage werkelijk correct gelabelde clausules) en de vangst of recall (het percentage correct positief gelabelde clausules), en dat zijn dan weer twee maten die iets zeggen over de kwaliteit.
De kern is dat deze maat ongevoeliger is dan bijvoorbeeld alleen kijken naar het aantal correcte labels. Computers zijn grappig wat dat betreft: als je stuurt op “ik wil 100% correcte labels” dan krijg je één label dat correct is, dat is namelijk honderd procent. En zeg je, ik wil niets missen uit categorie X, dan wordt je hele contract als X aangemerkt want dan heb je in ieder geval niets gemist. Volgens het boekje kun je dan beter naar de F1 score kijken, dus dat doe ik dan maar.
Je kunt natuurlijk nog een stapje dieper gaan. Wat is erger, een clausule missen (overslaan, niet relevant) die buitengewoon pijnlijk was, of een clausule verkeerd labelen? Of de clausule wel herkennen maar als onschuldige variant aanmerken? En maakt het dan uit of je aansprakelijkheid miste maar het wijzigingsbeding-als-de-AVG-verandert netjes aanwees, of andersom?
Wat me daarbij opvalt is dat de zorg over fouten bij lawyerbots hoog zit bij veel mensen. En dat snap ik, want we hebben allemaal een zekere onbewuste angst voor dingen die automatisch iets doen, helemaal als dat mensachtig werk is. Wat dan precies de angst is (wat is erger) dat verschilt bij personen.
Is het een gekke gedachte dat niemand dit ooit zo verifieert bij een menselijke jurist? Die wordt ook getraind met een grote trainingset, al het werk dat hij onder begeleiding van een collega/partner uitvoert. Maar niemand die ooit vraagt, laat eens zien welke NDA’s jij de afgelopen tien jaar hebt gereviewd zodat ik weet hoe goed jij bent in het inschatten van fouten en nasty clausules. Waarom moet een AI dat dan wel kunnen laten zien? Nieuwigheid dus bewijs maar dat je beter bent?
Arnoud
Voor mij zit de angst erin dat je aan een echte advocaat kunt uitleggen wat je bedoeling is met een contract, welke dingen zeer belangrijk zijn voor jou, en welke dingen minder belangrijk zijn voor jou maar wel netjes volgens de regels van de kunst geimplementeerd moeten zijn voor jou.
Dat laatste kun je aan een bot overlaten, maar die eerste twee?
Kortom: het belang van de klant is natuurlijk dat het contract goed is (in die zin dat experts er geen gaten in kunnen prikken), maar ook, en net zo hard, dat zijn specifieke wensen en zorgen (of die nu redelijk of onredelijk zijn) gereflecteerd worden in het contract.
Je kunt dezelfde kwaliteitsscores gebruiken op de door mensen afgehandelde zaken. Een uitdaging blijft de juiste labeling. Wie bepaalt wat het juiste label is? In de alfa wetenschap is die labeling veel meer discutabel dan de beta techniek. Met gamma doorlichten geeft wel een beeld masr geen oordeel.
Maar die jurist heeft dan wel een beroepsaansprakelijkheidsverzekering. De bot (nog) niet?
Mijn bot wel. Maar ik geef toe dat het zeldzaam is, volgens mij is Lynn Legal bv de enige met zo’n beroepsaansprakelijkheidsverzekering.
Oh, vet! Betekent dat dan ook dat je een verzekeraar zo ver gekregen hebt de bot te auditten om te kijken of ze het wilden verzekeren? Dat is wellicht ook nog wel een blogpost waard, hoe dat hele proces verlopen is.
In de pathologie zijn er al diverse dubbel-blind onderzoeken gedaan naar de verschillen tussen de scores van dezelfde weefsel-images die zowel door een expert patholoog zijn beoordeeld als door een machine-learning algoritme. Misschien een idee om iets soortgelijks op te zetten: 10 conculega’s vragen die elk 10 contracten beoordelen vs Lynn?