AI-lawyerbot visualiseert gebruiksvoorwaarden

Onderzoekers van de Zwitserse technische Universiteit EPFL hebben een ai-bot online gezet die gebruiksvoorwaarden leest en omzet in een overzichtelijk stroomdiagram, las ik bij Tweakers. Er is ook een chatbot-interface waarmee je vragen kunt stellen, en de bot zoekt de meest relevante zinen er dan bij. Het nut van het stroomdiagram ontgaat me, maar het idee van eenvoudiger leesbaar en bladerbaar maken van gebruiksvoorwaarden zie ik zeker wel zitten.

Het onderzoeksrapport van de Pribot en Polisis bot geeft aan dat de focus primair ligt op de privacyaspecten van de dienst. Men analyseerde zo’n 130.000 privacyverklaringen en extraheerde daaruit de tekstuele informatie, die vervolgens met een deep learning neuraal netwerk werd geanalyseerd. (Het idee dat er 130.000 privacyverklaringen op internet staan, geeft me soort van koude rillingen.)

De analyse zelf vind ik best slim opgezet. Zo wordt de onderliggende betekenis van termen geanalyseerd, zodat bijvoorbeeld “erase” en “destroy” als eenzelfde concept wordt aangemerkt. Ook werd op woordcombinatieniveau (3-grams tot 6-grams) getraind in plaats van zoals vaak op individuele woorden (bag of words). Het is me niet helemaal duidelijk hoe de training set haar labels kreeg.

De tekst wordt vervolgens op zinsniveau geclassificeerd (precies hoe mijn NDA Lynn werkt) en in een categorie gestopt. De uitkomst is een classificatie op hoog niveau waarbij men precies de tekst kan tonen die gaat over dat onderwerp, zodat je bijvoorbeeld iconen kunt tonen of een visualisatie van welke concepten waar aan de orde komen. De kwaliteit is best goed: 88% van de bevindingen komen overeen met menselijke inschatting.

Technisch is het geen ingewikkelde toepassing, de innovatie zit (zoals vaker bij legal tech) in het inzicht dat het in dit domein wat kan opleveren. Dat komt helaas nog veel te weinig voor. Een mogelijke reden daarvoor is dat je een héle grote berg data nodig hebt om de training goed te doen, en dat is in de juridische sector nog best ingewikkeld. Haal maar eens ergens 130.000 documenten over één onderwerp vandaan.

Een andere mogelijke verklaring is dat je bij een lawyerbot precies kunt zien hoe betrouwbaar ze zijn (in dit geval 88%) en dat er daarmee een heel concreet vraagteken komt te hangen bij of je erop kunt vertrouwen. Zeker omdat áls er fouten zijn, die meestal behoorlijk in het oog springen, zoals omdat de bot een zin compleet niet snapt en een mens meteen ziet wat het wel moest zijn.

Ik blijf ermee zitten hoe dat te overwinnen. Ook mensen zijn niet perfect, ik zou snel tekenen voor een jurist die iedere dag consistent 90% van de tijd foutloze documenten oplevert. Maar je merkt dat een stuk minder, en we kunnen het daarom niet zo goed beoordelen (denk ik).

Of zit er meer achten? Waarom ziet men een snelle inschatting van een ervaren privacyjurist als waardevoller dan een snelle inschatting van een AI bot als deze?

Arnoud

5 reacties

  1. Ik zie nu waarom uitlegbaarheid wellicht belangrijk is. Een neuraal netwerk train je één keer, en daarna heb je het er maar mee te doen. Een mens, zelfs als die vele malen slechter presteert dan de AI, legt vaak niet uit hoe hij ergens toe komt, en zelfs als hij het doet, is het niet echt begrijpelijke taal, en zeker niet een menselijke redenering. Het is dan toch een beetje “Ik heb input op node 4 en 9 en dus activeert node 17 en die remt node 34 en dat samen met de andere nodes betekent dat het antwoord groen is”. Een mens geeft in ieder geval de impressie dat je, als leek, kunt nagaan waar de fout zat en daarvan kunt leren. Een neuraal netwerk is volgens mij niet verstandig om te laten leren van fouten na de training, omdat hij dan misschien scheefgroeit. En, zoals je zegt, sommige fouten lijken heel dom voor een mens, zelfs als hij vaak veel complexere dingen goed heeft. De natuur van de mens is natuurlijk ook wel erg om te focussen op negativiteit en fouten, en die veel te zwaar te wegen, zeker met zoiets “nieuws”.

  2. Dit roept drie vragen bij me op:

    Het idee dat er 130.000 privacyverklaringen op internet staan, geeft me soort van koude rillingen.
    Waarom? Zijn dat er te veel, te weinig? Bij veel diensten betaal je met je persoonsgegevens, dus het lijkt me juist goed dat dit soort zaken expliciet worden gemaakt. De vraag is hoe goed deze 130.000 verklaringen zijn. Daar maak ik me weinig illusies over, maar dat was het onderzoek niet.

    Mijn tweede vraag is inhoudelijk: hoe is die 88% beoordeeld. Uit het rapport blijkt dat dit uit de OPP-115 Corpus komt, dus uit een set van 115 privacy policies. Ik vraag me af of je dat kan extrapoleren. Daarnaast gaat het daar over het toekennen van icons aan de privacy policy. Als er complexere vragen gesteld worden daalt de correctheid. De abstract van het artikel heeft het dan ook over 82%.

    Als laatste vraag ik me af in hoeverre die gebruikt kan worden om een nieuw corpus of tool te bouwen. Bijvoorbeeld als backend voor Terms of Service: Didn’t Read (TOSDR).

      1. Het zijn er sowieso niet te weinig, want het feit dat de trainingset uit 130.000 verklaringen bestaat, laat alleen zien dat er minstens 130.000 op het internet staan, en zegt niets over de upper limit. Dit betekent dat er minstens 130.000 plekken zijn waarbij er iets met persoonsgegevens gebeurd. Blijkbaar is dat veel.

      2. Ik weet niet of het in dit geval gebeurd is, maar met statistieke berekeningen kun je op basis van een steekproef iets zeggen over hoe dit relateert aan de gehele populatie. Het zou dus best kunnen dat je dit met redelijke zekerheid kunt extrapoleren.

    1. Ik vind het heel veel, met name omdat het zo gigantisch inefficiënt is. Iedereen gaat opnieuw uitleggen wat persoonsgegevens zijn, waarom ze goed beveiligd zijn en dat je je bij iedere nieuwsbrief met een link kunt uitleggen. Het zou toch zo fijn zijn als bepaalde van die dingen ergens centraal staan. Net zoals niet ieder huis hoeft te zeggen “dit zijn mijn meubelen” maar er gewoon een wet is met eigendomsrecht…

      1. Dan graag 1 set regels/afspraken die voor iedere redelijke site en bv de hele EU (mooier zou de hele wereld zijn, maar dat acht ik op het moment al helemaal onhaalbaar) werkt. Nu heeft zo ongeveer elke site wel iets van een privacy policy. Al staat er maar in dat het e-mail adres ingevuld via een contactformulier enkel gebruikt om te reageren op het formulier en de ontvangst te bevestigen. En de komende maanden verwacht ik eerder een toename dan afname…

        Een set standaard voorwaarden die van toepassing is in de hele EU indien niets geroepen zou kunnen helpen.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.