De uitlegbaarheid van AI-uitspraken

Steeds meer legal tech diensten maken gebruik van kunstmatige intelligentie oftewel AI. Dit is een belangrijke ontwikkeling: hiermee kunnen machines zelf beslissingen nemen of analyses uitvoeren die voorheen alleen door mensen gedaan konden worden. Denk aan dossiers doorspitten op zoek naar belastend materiaal, of juist oude afspraken terugvinden in een berg correspondentie. Maar steeds vaker wordt AI ook gebruikt om besluiten te nemen. En dat is juridisch toch wat riskant.

AI is in de praktijk meestal machine learning, een analysemodel waarbij een computer informatie leert te herkennen aan de hand van inhoudelijke kenmerken. In eerste instantie krijgt hij een berg vooraf gelabelde informatie aangedragen: deze clausule is oké, deze is problematisch. Daaruit destilleert de AI dan de verschillen, waarna hij vervolgens nieuwe informatie kan labelen. Deze clausule lijkt meer op de oké clausules dan op de problematische, dus is hij ook oké.

Dit klinkt heel simpel, maar de praktijk is behoorlijk ingewikkeld. Machines leren niet zoals mensen. Ze kijken niet naar betekenis maar naar woorden. Een AI zou zomaar kunnen denken dat een clausule oké is omdat hij “Leverancier” zegt – toevallig gebruikten de aangedragen oké trainingsvoorbeelden allemaal die term, en de problematische clausules spraken van “Opdrachtnemer”. Een goede dataset met labels is dus lastiger dan je zou denken.

Nog lastiger wordt het wanneer de analyse wordt gebruikt om uitspraken te doen over concrete zaken. Deze aanvraag moet worden afgewezen want hij bevat geen steekhoudende argumenten. Of: het profiel van deze verdachte lijkt erg op dat van veroordeelden uit vergelijkbare zaken, dus zal hij schuldig zijn.

AI of machine learning kan op deze manier worden ingezet, maar een belangrijk probleem daarbij is dan wel dat deze uitspraken moeten kunnen worden onderbouwd. En daar schort het nogal eens aan. De analyses van AI’s zijn normaliter niet direct naar redeneringen om te zetten. Een juridische AI moet dat wel kunnen.

Nieuwe ontwikkelingen op dit gebied focussen dan ook op het onderwerp van “white box” machine learning, lerende systemen die wél kunnen uitleggen hoe zij tot hun uitspraken komen. Dat zal helpen bij dit soort uitspraken. Maar fundamenteel blijft het issue dat AI’s uitspraken doen op basis van gelijkenis met eerdere zaken. Een novum hoeven we daar dus niet van te verwachten.

Arnoud

12 reacties

  1. Een mooie anekdote over AI vind ik deze:

    Gedurende de Koude Oorlog wilde de VS AI inzetten om Russische tanks te herkennen in gevechtssituaties, zodat in hun proxy-oorlogen “friend or foe” razendsnel kon worden bepaald. Hiervoor voerden ze een neuraal netwerk foto’s die ze hadden van Amerikaanse tanks, en foto’s die ze in eerdere oorlogen hadden genomen van Russische tanks. Dat ging hartstikke goed. De test-set gaf erg goede resultaten.

    Dus op naar de eerste de beste proxy-oorlog. Daar bleek al gauw dat er een probleem was. Het programma zag elke tank als Russisch, ook de Amerikaanse tanks.

    Wat was er nu gebeurd? De Amerikanen hadden alleen foto’s van Russische tanks in echte oorlogssituaties. Stof en viezigheid op en om de tank, grauwe luchten. Maar van de Amerikaanse tanks hadden ze veel betere foto’s. Presentatiefoto’s met strak blauwe luchten. Ze hadden nu dus een neuraal netwerk dat het weer kon vertellen. Slecht weer noemde hij dan wel “Russische tank”, dat gaf toch wat onduidelijkheid.

    Hoe dan ook, mijn ervaring met Kunstmatige Intelligentie is dat je het wel kunt toepassen op zo’n manier, maar dan zelf het resultaat moet verifiëren. Je kunt hem bijvoorbeeld leren om te zeggen “kijk hier eens naar”. Als hij niet zozeer een zelf-lerend neuraal netwerk is, maar een voorgeprogrammeerde beslisboom, dan hoef je alleen de beslisboom uit te leggen en kun je dat wel gebruiken voor uitspraken (vraag is dan of dat wel AI is).

    Een ander alternatief is om zo’n neuraal netwerk te laten draaien naast een rechter voor een aantal jaren (of misschien is maanden genoeg?). Als bij simpele zaken er een hoog percentage gelijke uitspraken uitkomt, is hij betrouwbaar, wat hij ook doet van binnen.

    Het doel is natuurlijk dat we uiteindelijk zo’n uitgebreid neuraal netwerk kunnen creëren, dat we alle neuronen van een menselijk brein kunnen nadoen, maar dat is voorlopig nog een eind weg.

    1. Tijdens de Tweede Wereldoorlog trainden de Russen honden om onder een tank te gaan liggen. Het idee was ze een pakketje explosieven mee te geven en zo Duitse tanks op te kunnen blazen. Helaas hadden ze alleen Russische tanks om mee te oefenen …

  2. Ik zie geen principieel probleem, wel twee belangrijke randvoorwaarden. De eerste is al genoemd: “white box” learning. Je MOET kunnen uitleggen waarom tot een uitspraak gekomen is, anders is ook niet duidelijk wat je moet veranderen in je gedrag. Je gaat een kind ook niet straf geven zonder te zeggen wat hij fout gedaan heeft. Jurisprudentie is van belang, in de zin dat duidelijkheid geboden wordt waar de grens van de wet nou precies ligt.

    Daarnaast is belangrijk te erkennen dat er fouten gemaakt kunnen worden, of dat nu met profiling is of met AI-uitspraken. Dat erkennen we nu bij menselijke rechters ook: het idee van een hoger beroep of cassatie bestaat niet voor niets. Een niet onbelangrijk onderdeel hierbij is dat hierbij gemotiveerd kan worden waarom twee uitspraken toch niet met elkaar vergeleken kunnen worden, en er daarom toch een andere uitspraak moet komen. Precies hetgeen waar een AI slecht in is.

  3. Denk dat het handig is om ook eens Weapons of Math Destruction te (her)lezen. Transparantie is sowieso hard nodig, voor diverse redenen. We (…) zijn bezig om ook eens vanuit audit-perspectief naar ‘AI’-beslissinggenererende systemen te kijken; is een vorm van certificering mogelijk? (NB dat is dus een vraag; of en hoe.) — 7 november kick-off in de Van Nelle-fabriek te Rotterdam (via Coney).

  4. De nieuwe vertaalautomaat DeepL (uit de stal van Linguee) is erg goed, beter dan Google Translate. Maar hij laat soms op raadselachtige wijze hele stukken zin weg, maar verzint er ook wel eens dingen bij. Dat is denk ik net zoiets. Ook dat als je iets kleins, bijvoorbeeld een hoofdletter, verandert, hij opeens met een heel andere vertaling komt.

    1. The new translation machine DeepL (from the barn of Linguee) is very good, better than Google Translate. But sometimes he leaves away whole pieces of sentence in a puzzling way, but sometimes he also invents things. I think that is just as much. Also that if you change something small, for example a capital letter, he suddenly comes up with a completely different translation.

  5. Blendle gebruikt AI om het leesgedrag van de abonnees te kunnen voorspellen. Ze zeggen daar zelf over: “Het algoritme houdt nu tot in de kleinste details rekening met persoonlijke interesses en leesgedrag van gebruikers. Als je bijvoorbeeld van longreads en van sport houdt krijg je naar verhouding meer lange sportartikelen te zien.” Als ik nu regelmatig artikelen over Trump kies, ben ik dan geïnteresseerd in Trump zelf, zijn hele familie inclusief Ivanka, Jared en Donald jr., in de Amerikaanse politiek inclusief Clinton en Sanders of heb ik een goed gevoel voor humor en lees ik graag over mensen met een, althans naar mijn idee, belachelijk gedrag en voorkomen? En wat als ik die interesse combineer met artikelen over Kim Jong-un. Ben ik bang voor een kernoorlog of gaat het nog steeds over dat gevoel voor humor?

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.