Afgelopen week kwam nog een interessante kwestie langs over NDA Lynn haar kwaliteiten: wie zou er durven te varen op het advies van een robot? Want nou ja, het blijft software en die maakt fouten. En leuk en aardig dat ze gemiddeld 94,1% van de zinnen correct herkent, maar een geniepige zin die net in die 6,9% valt wordt dan dus gemist. Bovendien, hoe kun je achterhalen wat Lynn nu doet, echt uitleg op zinsniveau krijg je niet. Dus moet je dat wel vertrouwen, zo’n robotadvies?
Het punt van die uitleg is een algemene zorg bij AI beslissingen en -adviezen. Veel AI opereert als black box, je gooit er een input in en je krijgt te horen wat de output is, maar over het waarom zwijgt het systeem. En als je dan in die doos kijkt, dan helpt dat maar beperkt. Vaak komt het neer op “het leek meer op categorie A dan categorie B”, maar zien welke factoren daarbij de doorslag gaven, is erg moeilijk. Ook het doorgronden van die factoren is soms een puzzel; Lynn vond bijvoorbeeld een tijd NDA’s onder Californisch recht strenger, omdat mijn traindataset toevallig veel strenge Californische en wat relaxtere Europese NDA’s bevatte.
De angst voor dit soort onduidelijkheid speelt met name bij besluiten over personen. De AVG bevat een streng verbod op geautomatiseerde besluiten op basis van profielen, en AI-gebaseerde analyses “u krijgt geen hypotheek” vallen daar natuurlijk onder. Vandaar dat er tegenwoordig veel wordt geïnvesteerd in uitlegbare AI.
Toevallig heeft BigML (de technologie achter NDA Lynn) dat ook – het systeem produceert heel grof gezegd een stapel gigantische beslisbomen en geeft het gewogen gemiddelde van elke boom z’n uitkomst als de uitslag. Je kunt dus exact zien hoe een classificatie tot stand komt: er stond “state of California” achterin, ik zag ook “security measures” dus dit is een strenge NDA. Het is uitleg, maar niet eentje waar je perse veel aan hebt.
De cynicus mag nu reageren dat uitleg van een menselijke jurist óók lastig te volgen is voor een leek. Maar daar gaan we dan toch in mee, en de reden is simpel: die jurist vertrouwen we. Hij heeft er voor geleerd, hij doet dit al tien jaar, hij heeft een dik pand en een sjiek pak dus de zaken gaan goed, hij is verzekerd tegen claims en ga zo maar door.
Een AI heeft dergelijke vertrouwensfactoren niet, dus is het veel moeilijker om in te schatten of het klopt. In een Engels onderzoek bleek bijvoorbeeld slechts 7% van de mensen een AI advies over financiën te vertrouwen. Gek genoeg zou 14% wel onder het mes gaan bij een robotchirurg. Waar zit hem het verschil? Het mentale model dat we hebben bij deze handelingen, denk ik. Dat een robot heel precies en met vaste hand kan snijden, dat is voor te stellen. Dat hij ook geen millimeter af zal wijken van waar hij moet zijn, dat is ook nog wel logisch. Maar dat een robot mijn financiële situatie snapt en een passende hypotheek uitzoekt, nee dat is bizar.
Wat zit daar dan achter? Is het het fysieke, dat we een robotarm met mesje kunnen zien en ongeveer kunnen inschatten dat dat kan werken? Of is het de intelligentie die nodig is – bij een chirurg is dat vrij rechtomlijnd, bij een advies is het veel fuzzy’er. Een hart is een concreet item dat je tegen kunt komen in een borstkas, en daar doe je dan wat mee. De opties lijken daarmee eindig. Terwijl bij een advies het veel lastiger voorstelbaar is dat zo’n robot alle situaties kan inschatten. Dus dat is enger, en dan denkt men: doe maar niet.
Dus, hoe krijgt een adviesrobot het vertrouwen in zijn kunnen omhoog? Kwestie van gewoon doen en wachten tot men omslaat?
Arnoud
Voordeel van AI is dat het geen last heeft van een slecht humeur, kater of vooroordelen die gewone mensen altijd in meer of mindere mate hebben.
Een AI kan heel goed vooroordelen hebben. Het is juist een gevaar dat mensen denken dat een AI geen vooroordelen kan hebben, terwijl dat wel vaak zo is: er kan dan onrecht ongedetecteerd en ongecorrigeerd blijven.
De beslissingen van een AI zijn vaak gebaseerd op een trainings-set van data. Een mogelijke oorzaak van een vooroordeel is dat de verhoudingen in de trainingsset kunnen afwijken van die in de werkelijkheid. Voorbeeld is Arnoud’s beschrijving dat NDA Lynn NDA’s onder Californisch recht strenger vond, omdat zijn traindataset toevallig veel strenge Californische en wat relaxtere Europese NDA’s bevatte. Dat kan je denk ik wel een vooroordeel noemen.
Maar ook als de trainingsset wel representatief is voor de werkelijkheid kan dat leiden tot vooroordelen. Als allochtonen in werkelijkheid gemiddeld vaker crimineel zijn dan autochtonen, en de trainingsset weerspiegelt dat, dan zou een AI kunnen besluiten dat een allochtoon niet vertrouwd moet worden. Dat is ook een vooroordeel, ook al is het op de werkelijkheid gebaseerd: een individuele allochtoon kan best heel betrouwbaar zijn, ook al is de groep als geheel gemiddeld minder betrouwbaar. Door een individu te beoordelen op basis van eigenschappen van de groep doe je het individu onrecht aan.
Mensen plegen dit soort onrecht aan de lopende band, maar met de manier waarop AIs op dit moment meestal worden geprogrammeerd is dit bij AIs ook heel goed mogelijk.
En of AI vooroordelen kan hebben! Kennen we Microsoft´s Tay nog? 😉
Is het niet gewoon een kwestie van nieuwigheid. Natuurlijk is AI er al wel een paar jaar, maar het vak jurist veel langer. Met computers bleef men ook nog een tijd handmatig alles opschrijven, omdat men niet vertrouwde dat een computer dat allemaal kon onthouden. Rekenmachines werden met de hand nagerekend. De meeste mensen weten ook niet precies hoe die dingen dat allemaal doen. Het verschil zit hem misschien in het feit dat bij AI de ontwerper ook niet precies hoe hij tot een beslissing komt, omdat hij alleen het leeralgoritme heeft gemaakt.
Ondertussen zien we bij zelfrijdende auto’s, die ook AI gebruiken om te rijden, dat er al steeds meer mensen zeggen dat ze waarschijnlijk veiliger zijn (maar gezien er heel wat mensen graag autorijden, willen ze niet allemaal over). Chirurgische robots worden blijkbaar vertrouwd. Op het gebied van financiën weet ik dat AI beter kan voorspellen welke aandelen je moet kopen dan zogenaamde experts (die zelfs nog verloren van een kat, op de WK voetbal voorspelmanier, geloof ik).
Misschien is er ook nog een angst dat we straks geen dokter meer kunnen spreken en dat we als bejaarde alleen nog robots zien. Die persoonlijke touch en aandacht wordt toch wel erg op prijs gesteld. Mensen zijn wellicht bang voor een hellend vlak. Nu juridisch advies, morgen vertelt een robot “beep, boop, u heeft kanker, tot ziens”. Ik ben daar zelf niet zo bang voor, maar gezien er nog steeds mensen worstelen met waarom smartphones en computers nou zo nodig moeten, denk ik dat AI nog even een stapje te ver is en dat vooral geduld en positieve praktijkvoorbeelden nodig zijn om iedereen overstag te krijgen.
Lynn werkt op 101% van de inhoud? Dat is een hele prestatie 🙂
Maar is het niet ook nog steeds gewoon Garbage in -> Garbage out? Als jij een ranzige training set er in prakt dan zal het antwoord ook ranzig zijn. Al jij alle sonnetten van Shakespeare er in stopt dan zal er nooit een goed NDA advies uit komen. Wat subtieler als jij alleen maar Californische in stopt of alleen maar EU dan is het ook een gekleurd advies. Dus wellicht is een deel van het verhaal de uitleg wie de meester is, Lynn is een leerling van ….. ipv Lynn heeft wel 80 miljoen zinnen gelezen. Een operatie door robot arm met software geschreven door Freddy Kruger of Jason Voorhees zie ik ook niet zitten 😉
Een goede trainingset is ontzettend belangrijk, maar met complexe dingen kan het zijn dat er een overeenkomst zit tussen verschillende trainingscases en hun verwachte uitkomst. Oftewel, je AI kan raden dat iets streng is, omdat er California in staat. Dit zie je zelf niet altijd aankomen en of dit gunstig gedrag is, is wisselend. Soms kom je zo achter een belangrijke eigenschap die voorspelt wat de uitkomst is (Security measures kan bijvoorbeeld best een belangrijke frase zijn die kan voorspellen of iets streng is. Misschien is het wel typisch voor agressieve juridische taal. Of misschien hebben mensen met een bepaalde ziekte altijd drie weken voor de echte symptomen jeuk aan hun rechteroor), maar het kan ook averechts werken (er was eens een AI die probeerde Russische en Amerikaanse tanks uit elkaar te houden, maar door de trainingset vertelde hij eigenlijk gewoon hoe vies de tank was). Het is daarom belangrijk om verschillende stappen te doorlopen. Een trainingset die goed gescreend is, een testset om de accuraatheid te testen, in het veld testen (normale vorm van advies/beslissen wordt gevolgd, terwijl er wordt gekeken of de AI hetzelfde zegt, of zelfs beter/sneller) en dan, als de AI dat alles doorstaat, op de AI gaan vertrouwen.
Dat laatste is precies hoe het nu werkt. Enige nadeel: ik zit dus alsnog de hele week NDA’s te beoordelen… Maar het moet en het helpt inderdaad met de kwaliteit.
Is het een gekke gedachte dat niemand dit ooit zo verifieert bij een menselijke jurist? Die wordt ook getraind met een grote trainingset, al het werk dat hij onder begeleiding van een collega/partner uitvoert. Maar niemand die ooit vraagt, laat eens zien welke NDA’s jij de afgelopen tien jaar hebt gereviewd zodat ik weet hoe goed jij bent in het inschatten van fouten en nasty clausules. Waarom moet een AI dat dan wel kunnen laten zien? Nieuwigheid dus bewijs maar dat je beter bent?
Ik denk dat het ermee te maken heeft dat we weten hoe een mens leert en die niet in een vacuüm alleen NDA’s heeft geleerd zijn hele leven. We kunnen dus redelijkerwijs aannemen dat die NDA’s niet beoordeeld op of er het woord California erin voorkomt, of dat het woord “the” er precies 153 keer in voorkomt, of iets dergelijks. Een AI kan wel dit soort foute conclusies ontwikkelen, omdat die in feite traint om de trainingset zo goed mogelijk te kunnen. Bovendien heeft een jurist examens en tentamens moeten doen, waar hij, lijkt me, heeft moeten uitleggen hoe hij tot een conclusie komt. Zelfs als NDA’s daar niet aan bod kwamen, kun je zeggen dat hij in ieder geval zijn bredere juridische kennis kan inzetten bij NDA’s. Hij weet waarom een NDA een risico is en wat de gevolgen ervan kunnen zijn. En dat heeft niets te maken met of er 153 keer “the” staat.
Als we juristen zouden trainen door mensen die net van de middelbare school komen twee stapels Arabische teksten te geven en daarbij te zeggen dat uit de ene stapel “ja” en de andere stapel “nee” moet komen, ga je toch kijken wat nu de overeenkomsten zijn tussen de twee en emuleer je eigenlijk wat een AI doet. Je snapt niet wat er staat, maar als je bepaalde herkenningspunten ziet, kun je redelijk aannemen dat je in de ene of de andere stapel zit. Als dit toeval is, ga je je toets niet goed maken. Als het geen toeval is, ben je een goede AI.
Als een AI echt de te beoordelen tekst begrijpt, dan kan het ook uitleggen welke de eventueel bezwarende clausules zijn. De huidige AI is nog lang niet zover. Het werkt soms en zelfs dan begrijpt men slecht waarom. Je NDA klanten willen horen welke clausule problematisch is. Dat lukt nog niet met AI.
Het vertrouwen neemt toe als er cijfers zijn. Net als bij de zelfrijdende auto’s: Tesla laat de autopilot nu schaduwdraaien en verzameld een hoop statistieken over wat de chauffeur doet, en vergelijkt beide. Met genoeg gegevens kunnen ze over een tijdje zeggen: Kijk naar de cijfers: autopilot is aantoonbaar veiliger. Iets vergelijkbaars zou je met je legalbot kunnen doen: een tijd schaduwdraaien, en, daarna vergelijken, en als het goed is zeggen: kijk, de cijfers geven het aan, hij is beter dan een menselijke adviseur.
Eens. Alleen: welke cijfers zijn erom de baseline van die menselijke adviseur te geven? Ik kan toch moeilijk 100 juristen inhuren om een stapel NDA’s te reviewen en daaruit een benchmark afleiden?
Crowd-sourcen onder mede-juristen die allemaal van dat rotwerk afwillen?
Optie zou zijn om hem te laten schaduwdraaien en bij elke case waar de AI een andere uitkomst geeft, nagaan hoe dit uitpakte voor de klant. Als jij ja zegt, en de bot nee: Heeft de klant onvoorzien last ervaren? Wat vinden andere juristen ervan? Als jij nee zegt, en de bot ja: Ook dan wat vinden andere juristen ervan? Zijn er cases bekend waarbij iemand die NDA wel accepteerde?
En, daarbij, stel dat een jurist 95% van de keren goed zit, en een bot 90%: Is het advies van de bot goedkoper en wat is het risico?
Bij de operatie liggen de belangen van de patiënt en de robotgebruiker, de arts, volledig in dezelfde richting: de patiënt beter maken. Bij financieel advies is dat niet zo. Het financiële belang van de klant kan botsen met het financiële belang van de adviseur. Het is niet goed voorstelbaar waarom de operatierobot zo geprogrammeerd zou zijn dat hij tégen het belang van de patiënt zou handelen. Bij financieeladviessoftware ligt dat volledig anders: het is zeer wel denkbaar dat die niet uitsluitend op de beste uitkomsten voor de klant let, maar ook (of juist) gebouwd is om de belangen van de bouwer te verdedigen. Dáárom vertrouwt men de een wel en de ander niet.
En financieel adviseurs hebben nooit een belang anders dan die van de klant?
Precies mijn gedachte. If anything, kun je met een bot tenminste aantonen waar je hem op getraind hebt. Je kunt dus eigenlijk inzien of hij met een bias voor de bouwer of de klant. De adviseur is dan veel meer een black box.
Dat zou je mogelijk kunnen aantonen, (alhoewel dat notoir lastig is) maar het punt is dat het niet inzichtelijk is en niet inzichtelijk voelt.
Bij menselijke actoren is het ook niet direct inzichtelijk, maar zo voelt het wel. Mensen hebben het idee dat ze andere mensen kunnen inschatten: ‘die adviseur is zo’n gladjanus, die vertrouw ik niet’, ‘bij die adviseur ga ik weer langs, het was zo’n prettig gesprek, het klikte meteen’.
Gedachtenexperiment: een arts zet bij de helft van zijn patiënten een zonnebril met spiegelglas op en een financieel adviseur doet hetzelfde bij de helft van zijn klanten. Bij wie zou er meer verschil in vertrouwen te meten zijn? Ik voorspel bij de financieel adviseur, alhoewel ook bij de arts patiënten zullen afhaken (wat je ook ziet in Arnouds cijfers over robotchirurgen).
Het aantonen hoeft niet lastig te zijn. Als je de trainingset vrijgeeft (dat zijn dus alle cases met hun gewenste antwoord), kun je inzien bij cases waar een financieel adviseur baat zou hebben bij een ander antwoord dan de klant welk antwoord is gebruikt voor het trainen. Oftewel, je kunt dan zien of het adviseur-antwoord of het klant-antwoord is gekozen, en voor wie de bias is.
En het klopt dat er mensen zijn die denken dat ze anderen kunnen inschatten, maar vaak blijkt dat niet zo goed te werken. Ervaringen van eerdere leidinggevenden heeft meer waarde, maar er wordt nogal eens afgegaan op de indruk van het sollicitatiegesprek. En we denken dat we oplichters en ander gespuis wel in de smiezen zullen hebben, met hun gladde praatjes, maar vaak zijn het juist joviale mensen die je vertrouwen winnen voordat ze je geld afhandig maken, of erger. Kortom, we denken misschien wel dat we daar goed in zijn, maar dat zijn we niet. Daarbij komt ook nog dat het vertrouwen in de financiële sector niet erg hoog is. Mensen hebben na de bankencrisis het gevoel dat er gewoon op dezelfde voet door wordt gegaan, maar een nieuwe crisis in het verschiet. De meer rationele klant zal dus liever een bot volgen dan een financieel adviseur, zeker als de bot tot op zekere hoogte gecontroleerd kan worden op zijn onafhankelijkheid, gezien je dat met een mens moeilijk kunt.
De trainingsset vrijgeven is een goede vanuit klanttevredenheid, maar is natuurlijk wel de kern van het product. Want als jij de trainingsset van NDA Lynn hebt, dan zet jij zo een kloon op. Ik zou daar best moeite mee hebben. (Dit nog los van dat zo’n trend best moeilijk te spotten is met een bak data, Lynn is nu een dikke 5MB aan regels tekst met een labeltje zoals “strict” of “short”. Haal daar eens mijn bias uit als jurist?)
Zou er geen andere oplossing zijn, zoals een mystery shopper zoals de Consumentenbond die inzet bij garages of andere dienstverleners? Veroorzaak een klein defectje en kijk of je voor duizenden euro’s aan dingen geoffreerd krijgt.
Zoiets zou ook kunnen. Hoewel ik zou zeggen dat de trainingset wel belangrijk is, maar niet het belangrijkste. Dingen als leeralgoritme, hoeveelheid knopen en lagen, in welke stukjes hij naar de input kijkt. Dat zijn allemaal nog veel belangrijkere dingen. Natuurlijk kun je met de trainingset een eigen bot maken en wat geld uitsparen voor het verzamelen en classificeren, maar dan heb je nog geen testset (of je moet de trainingset opdelen, maar dan heb je een kleinere trainingset dan het origineel). Ook zou je iets kunnen verzinnen waar je bijvoorbeeld je trainingset upload naar een (overheids)service, die vervolgens willekeurig 5 tot 10% van de trainingset vrijgeeft, zodat niemand een gelijkwaardige bot kan creëren, maar er wel een redelijk aanname gedaan kan worden over de bias. Met één case met bias krijg je geen goede bias in je bot, en met meer cases met bias komt het waarschijnlijk wel uit zo’n random steekproef. Percentage kan ook gemanipuleerd worden, wat dan weer iets zegt over de zekerheid van de conclusie over de bias. Natuurlijk moet de trainingset wel naar een betrouwbare partij om de steekproef te trekken, want je wil niet dat WijWillenBotsMakenMetUwSets B.V. die steekproeven doet. Daarom denk ik wellicht overheid, want het is goed mogelijk dat de vraag naar bots groter wordt, en daarom een verificatie van onafhankelijk belangrijker wordt in nationaal belang.
Stel dat dit soort robots redelijk goed worden. Dan voorzie ik de ontwikkeling dat NDA’s meer en gedetailleerdere clausules gaan bevatten en langer worden. Dat kost immers niets: voor de robot maakt die extra lengte weinig uit. Uiteindelijk worden de overeenkomsten dan zo lang en complex dat menselijke toetsing steeds moeilijker wordt. Ongeveer wat gebeurd is bij aanvragen voor studiefinanciering of uitkeringen, waar de aanvrager vandaag de dag steeds meer details moet aanleveren en ook steeds vaker die gegevens moet updaten.
Dat is een interessante gedachte. Maar ik voorzie eerder het omgekeerde: als alles machinaal verwerkt gaat worden, dan krijg je op zeker moment standaardisatie (security in de smaken streng en gemiddeld, aansprakelijkheid is hoog/middel/laag) en dan kun je gaan spreken over de standaardclausules. Denk aan autoverzekeringen waar je nu feite drie smaken hebt: WA, beperkt casco en all risk. Iedere verzekeraar heeft eigen AV maar grosso modo is de dekking hetzelfde, en de afwijkingen worden al buiten de AV om gemeld. Ik zie dat dus voor NDA’s ook wel voorkomen.
Als het met een AI gestandaardiseerd wordt loop je ook het risico dat mensen gaan proberen zaken zo te formuleren dat de AI ze niet herkent en onterecht zegt dat je kan tekenen.
Hoe doet je AI dat nu eigenlijk met stukken tekst waar hij geen kaas van kan maken: Geeft hij aan welke stukken hij niet kon classificeren zodat je weet dat daar in ieder geval een review door een persoon duidelijke toegevoegde waarde kan hebben?
Het vervelende van een classifier is dat hij maar één ding kan en dat is classifyen. Alles moet en zal dus een categorie krijgen, en “I don’t know” is geen optie. (En je kunt ook niet trainen op een categorie “I don’t know” helaas.) Wat ik nu wel aan het (laten) bouwen ben, is dat hij afgaat op de confidence van de categorisering en als dat te laag is, dan zeggen “I don’t know”. Want een zin die met 10% zekerheid een categorie krijgt, daar heb je niets aan.
Zou het niet juist omgekeerd werken? Juridische “filler” om mensen af te schrikken als er een geschil ontstaat heeft geen effect op bots. Het heeft dan dus geen zin om al die extra tekst te genereren en dan kun je beter kort en to-the-point zijn. Als die bots zo goed worden dat ze goede van slechte NDA’s kunnen onderscheiden, kunnen ze ook al snel aangeven waar je op kunt aanvechten. Veel tekst wordt dan zelfs een gevaar, want er valt meer aan te peuteren. Er hoeft maar iets niet te kloppen aan je tekst en ze kunnen mogelijk het hele ding onderuit halen op het moment dat jij als bedrijf en NDA verstrekker probeert je recht te halen.
Ik vertrouw niet op een 94.7% nauwkeurigheid van een NDA AI, maar wel op een betrouwbaarheid van 90% van een vlees-en-bloed advocaat. Ik kan inschatten dat Arnoud een niet-belangrijke typ- of rekenfout maakte met 94,1 en 6,9. Dat kan mij ook gebeuren. Als Arnoud aangeeft, dat 2 van de 20 clausules wat wazig zijn, maar niet echt een probleem, teken ik die NDA. Als de AI zegt, dat ze 94,1% van de NDA goed keurt, maar van de rest niet kan zeggen of het een sonnet van Shakespeare of een uitermate vervelende clausule is, vertrouw ik die AI niet. Ook niet voor de rest waar ie wel zeker van is. Een komma verkeerd, en een heel programma van 1000-en regels code compileert niet. Een gemiste komma, en het kost 10.000.000 euro in plaats van 10.000. 1% verkeerd klikken en het scherm wordt gesloten in plaats van gemaximaliseerd. Kleine fouten met computers hebben grote gevolgen, en ik lees 95% als ‘een op de 20 adviezen is echt heel fout’. Als in wat je bij een vlees-en-bloed advocaat makkelijk grove nalatigheid zou noemen. Niet als, ‘1 op de 10 adviezen is voor de helft goed, voor de helft fout’. Bij een vlees-en-bloed advocaat heb je de mogelijkheid de advocaat aansprakelijk te stellen bij grove nalatigheid. Hoe zit dat met deze AI? Als ik wist dat de betrouwbaarheid 95% was, en de aanbieder van de NDA service laat zien dat er ‘slechts’ 10 van de laatste 300 klanten in de problemen zijn gekomen, dan voldoet de bot immers toch aan de verwachtingen?
94.1% betekent dat in 94.1% van de gevallen de bot hetzelfde antwoord gaf als wat de tester (waarschijnlijk Arnoud?) vond dat het antwoord moest wezen. Dat betekent niet dat de bot zegt “dit is 94.1% zeker ja” of “94.1% van deze NDA is okay”. De bot had dus in 5.9% van de gevallen een ander antwoord. Dan is het ook nog van belang of de bot nee zei en de tester ja, of andersom. Niet tekenen als het wel kon is namelijk meestal minder schadelijk dan wel tekenen als het eigenlijk niet kon, verwacht ik. Het is mij ook niet duidelijk of dit bijzonder rare uitkomsten zijn waar het antwoord duidelijk was en de bot toch iets anders koos, of dat het grensgevallen zijn waar hij voor de bot net een andere kant uitviel.
De fouten die je verder noemt zijn van een heel ander kaliber. Dit programma compileert, anders kon hij geen advies geven, en geeft geen advies over bedragen. Hoewel bugs gebeuren, zijn rekenfouten nagenoeg onmogelijk met computer (letterlijk onmogelijk bij normale omstandigheden) en daar kan geen mens tegenop. Natuurlijk kan de programmeur een komma verkeerd zetten, maar deze bot geeft geen bedragen als advies, en testsets geven dus 94.1% nauwkeurigheid. Bovendien is de nauwkeurigheid erg binair gesteld. Als Arnoud zegt “Ik denk dat dit nét kan” en de bot zegt “nee”, dan is het dus fout, terwijl Arnoud misschien dan wel vindt dat het geen slecht antwoord is.
Ik denk dat bij aansprakelijkheid het ligt aan de presentatie. Als je zegt “Je kunt mij als advocaat bellen over een NDA en dan krijg je een factuur, maar je kunt hem ook even door deze bot halen voor gratis/weinig. Hij geeft in 94.1% van de gevallen hetzelfde advies.” Dan kun je als klant niet stellen dat de advocaat grof nalatig is. Als hij daarentegen zegt “Stuur me je NDA en ik beoordeel hem tegen normaal tarief” en het blijkt door een bot gedaan, dan kan je hem weldegelijk aansprakelijk stellen. Het is een beetje als een zwangerschapstest denk ik. Die zijn volgens mij ook niet 100% nauwkeurig, maar je kunt niet bij het ziekenhuis aankloppen voor de kosten van de babykamer als je 9 maanden na het plassen op het stokje geen baby hebt.
Wel interessant is die bias die in dit systeem zit gebouwd. Je traint namelijk de bot om hetzelfde antwoord als Arnoud te geven, niet om het enige juiste advies te geven. Als Arnoud dus in 95% van de gevallen een goed advies geeft, dan geeft de bot in het ergste geval in minder dan 90% van de gevallen een goed advies (maar in het beste geval 100%). Nu is er natuurlijk geen andere betrouwbare manier om het advies te toetsen. Maar dat betekent wel dat als de bot een ander antwoord geeft dan Arnoud, het niet is wat je van de bot verwacht, maar dat het advies mogelijk niet fout is en vice versa.
Lynn werkt in drie fases: eerst wordt elke zin gelabeld in een categorie (bv Term, Liability, Warranties, Parties definition) en per categorie wordt in fase twee gezegd welke impact dit heeft (Term=6years, Liability=strict, Warranties=none, Parties=mutual). Vervolgens wordt in fase 3 voor jouw use case (ik geef, ik krijg informatie) bepaald of die impact erg is of niet, bv. een term van 6 years geheimhouding is vervelend voor een verkrijger maar best prettig voor een gever. No warranties is standaard in NDA’s dus dat vindt Lynn altijd goed.
De 94.1 is dus voor fase 1: 94.1% van de zinnen wordt correct in het categorie-bakje gegooid. Slechts 5.9 (nee ik kan niet rekenen) van de zinnen komt verkeerd terecht – een Applicable Law wordt gezien als een Venue clausule of een Warranty zin komt ineens bij Security Obligations terecht. Het grappige is dat dit neit echt uit lijkt te maken. Er is meestal altijd wel een tweede zin die correct gelabeld wordt, en de fase 2 labeling komt daardoor alsnog goed uit. De meetfout zeg maar wordt dus meestal gecompenseerd door de andere metingen.
Het kan misgaan als er een clausule is van één zin, maar dan is de fout dat hij zegt “Ik zie geen Applicable Law” en dat je dan ziet dat er staat “California law shall be used in this contract” (wat een rare formulering is en dus niet herkenbaar). Ik denk dat de impact daarvan beperkt is. Als Lynn zou zeggen “Deze NDA is onder Nederlands recht” en er staat die zin, dan is dat wél ernstig. Maar zo’n fout heb ik nog niet gezien.
Dit is een heel interessante vraag, maar geen nieuwe. Mycin is een in de jaren 70 ontwikkeld expertsysteem voor medische diagnoses waarvan is aangetoond dat het gemiddeld betere diagnoses leverde dan de gemiddelde menselijke expert.
Dit roept de vraag op waarop wij ons vertrouwen in andermans expertise baseren. Als ik het goed begrepen hebt verschilt dit sterk van persoon tot persoon:
Sociale, extraverte mensen hebben de neiging om op de persoon af te gaan: als ze iemand vertrouwen, geloven ze alles wat die iemand zegt. Hun vertrouwen in een robot-oordeel hangt dus af van in hoeverre de robot ‘rapport’, een band, met ze weet op te bouwen.
Introverte (of extremer: autistische) mensen hebben de neiging niet te kijken naar wie iets zegt, maar naar wat de rationele onderbouwing is voor wat er gezegd wordt. Om zulke mensen te overtuigen zal de robot inderdaad een inhoudelijke motivering voor zijn/haar oordeel moeten kunnen overleggen.
Het een sluit het ander niet uit; doe dus maar allebei.
De vergelijking met een operatierobot gaat een beetje mank denk ik. Een operatie robot is niet een apparaat wat je aan zet, tegen je zegt: “gaat u maar liggen” , en dan autonoom zijn ding doet. Een operatie robot voert handeling uit die door een chirurg worden bestuurd, vergroot daarvan de nauwkeurigheid, en filtert daarbij mislukte bewegingen door drank gebruik, maandagmorgen beleving of intredende Alzheimer uit. M.a.w. de “robot” is geen robot, maar een operatie-instrument. AI doet autonoom dingen die mensen niet begrijpen, en is dus per definitie onbetrouwbaar. Net zoals “we” politici en (mag ik het hier zeggen?) juristen niet begrijpen en dus niet volledig vertrouwen. 😉