AI-lawyerbot visualiseert gebruiksvoorwaarden

| AE 10397 | Innovatie | 4 reacties

Onderzoekers van de Zwitserse technische Universiteit EPFL hebben een ai-bot online gezet die gebruiksvoorwaarden leest en omzet in een overzichtelijk stroomdiagram, las ik bij Tweakers. Er is ook een chatbot-interface waarmee je vragen kunt stellen, en de bot zoekt de meest relevante zinen er dan bij. Het nut van het stroomdiagram ontgaat me, maar het idee van eenvoudiger leesbaar en bladerbaar maken van gebruiksvoorwaarden zie ik zeker wel zitten.

Het onderzoeksrapport van de Pribot en Polisis bot geeft aan dat de focus primair ligt op de privacyaspecten van de dienst. Men analyseerde zo’n 130.000 privacyverklaringen en extraheerde daaruit de tekstuele informatie, die vervolgens met een deep learning neuraal netwerk werd geanalyseerd. (Het idee dat er 130.000 privacyverklaringen op internet staan, geeft me soort van koude rillingen.)

De analyse zelf vind ik best slim opgezet. Zo wordt de onderliggende betekenis van termen geanalyseerd, zodat bijvoorbeeld “erase” en “destroy” als eenzelfde concept wordt aangemerkt. Ook werd op woordcombinatieniveau (3-grams tot 6-grams) getraind in plaats van zoals vaak op individuele woorden (bag of words). Het is me niet helemaal duidelijk hoe de training set haar labels kreeg.

De tekst wordt vervolgens op zinsniveau geclassificeerd (precies hoe mijn NDA Lynn werkt) en in een categorie gestopt. De uitkomst is een classificatie op hoog niveau waarbij men precies de tekst kan tonen die gaat over dat onderwerp, zodat je bijvoorbeeld iconen kunt tonen of een visualisatie van welke concepten waar aan de orde komen. De kwaliteit is best goed: 88% van de bevindingen komen overeen met menselijke inschatting.

Technisch is het geen ingewikkelde toepassing, de innovatie zit (zoals vaker bij legal tech) in het inzicht dat het in dit domein wat kan opleveren. Dat komt helaas nog veel te weinig voor. Een mogelijke reden daarvoor is dat je een héle grote berg data nodig hebt om de training goed te doen, en dat is in de juridische sector nog best ingewikkeld. Haal maar eens ergens 130.000 documenten over één onderwerp vandaan.

Een andere mogelijke verklaring is dat je bij een lawyerbot precies kunt zien hoe betrouwbaar ze zijn (in dit geval 88%) en dat er daarmee een heel concreet vraagteken komt te hangen bij of je erop kunt vertrouwen. Zeker omdat áls er fouten zijn, die meestal behoorlijk in het oog springen, zoals omdat de bot een zin compleet niet snapt en een mens meteen ziet wat het wel moest zijn.

Ik blijf ermee zitten hoe dat te overwinnen. Ook mensen zijn niet perfect, ik zou snel tekenen voor een jurist die iedere dag consistent 90% van de tijd foutloze documenten oplevert. Maar je merkt dat een stuk minder, en we kunnen het daarom niet zo goed beoordelen (denk ik).

Of zit er meer achten? Waarom ziet men een snelle inschatting van een ervaren privacyjurist als waardevoller dan een snelle inschatting van een AI bot als deze?

Arnoud

Hoe AI een rol kan spelen in juridische besluitvorming

| AE 10025 | Innovatie | 9 reacties

De rol van AI voor juridische toepassingen is snel aan het groeien. Steeds meer diensten onderzoeken de mogelijkheden om kunstmatige intelligentie adviezen te laten geven of zelfs juridische besluiten te nemen. Welke mogelijkheden zijn daar voor organisaties zoals overheden, verzekeraars of keurende instanties om hun organisatie efficiënter te laten werken? En welke juridische risico’s zitten daaraan?

Een eerste, simpele mogelijkheid is een AI in te zetten als een aparte pre-check: mensen kunnen hun aanvraag of verzoek door een AI laten bekijken, die dan zijn bevindingen geeft. Dit verandert niets aan het eigenlijke traject en is vergelijkbaar met even informeel een medewerker bellen met de vraag of je aanvraag in principe akkoord is. Het zal schelen in de kansloze aanvragen en je kunt mensen tips geven om een aanvraag sterker te maken.

Meer winst krijg je als organisatie door de AI als eerste filter in te zetten. De aanvraag of het verzoek wordt dan eerst door de AI bekeken, en de bevindingen worden dan aan de behandelend medewerker verstrekt. Deze kan dan bijvoorbeeld zien of er afwijkingen op de normaal zijn, of welke onderdelen speciale aandacht nodig hebben. Dat verkleint de doorlooptijd, want een aanvraag waar de AI niets bijzonders aan ziet, kan dan eenvoudiger worden toegewezen. Een risico is natuurlijk dat de AI iets mist en de mens daar niet meer naar kijkt.

Nog sneller gaat het wanneer je die categorie “niets bijzonders” direct goedkeurt. Met zo’n raketloket win je nog meer tijd, omdat er nu in het geheel geen mens meer zit tussen de aanvraag en de positieve beoordeling. Uiteraard zit hier kans op fouten (een vals positief) maar je kunt dan steekproefsgewijs een handmatige controle uitvoeren, of de AI een voorlopige beoordeling laten geven en toezeggen dat een mens binnen zeg 14 dagen nog kan piepen. Dat laatste haalt natuurlijk de snelheid er weer uit, want varen op een voorlopige beslissing zal niet iedereen aandurven.

Spannender wordt het als de AI ook negatieve beslissingen gaat nemen. Want een AI die met enige zekerheid kan zeggen dat iets mag, kan net zo goed zeggen dat het niet mag. En dan krijg je dus een raketloket waar je ook binnen 5 seconden hoort dat het niet mag, wat je wilt. In ieder geval geldt dan de de AI in staat moet zijn het besluit goed te motiveren

Wanneer die beslissingen mensen aangaat (een verblijfsvergunning, of zelfs maar een bouwvergunning voor een dakkapel) dan kom je al snel bij het tere punt van de geautomatiseerde besluitvorming waar de Algemene Verordening Gegevensbescherming zo streng tegen is. In principe mag dat niet, een mens moet zulke besluiten nemen. Maar de AVG biedt een paar uitzonderingen:

  • Wanneer de besluitvorming noodzakelijk is voor een overeenkomst. Je zou dan kunnen denken aan een besluit om achterafbetaling toe te staan of de route te kiezen die een aanvraag moet volgen.
  • Wanneer een relevante wet dit bepaalt. Dit is vooral theoretisch nu, er is nog geen dergelijke wet waar dan ook in Europa. (Tenzij je bijvoorbeeld onze praktijk van het automatisch flitsen & beboeten van hardrijders een “wettelijke regeling” noemt.)
  • Wanneer men hier uitdrukkelijk toestemming voor geeft. Mensen zouden bijvoorbeeld kunnen kiezen voor een snelle geautomatiseerde beslissing in plaats van een langdurige handmatige beoordeling. Ik twijfel of het hierbij toegestaan is om de prijs te variëren: AI-besluit gratis, menselijk besluit duur. Daarmee ontzeg je mensen met beperkte beurs immers toegang tot die laatste categorie.

In ieder geval is het te allen tijde nodig dat betrokken personen bezwaar kunnen maken tegen het besluit, waarna een mens zich er nog eens over buigt. Ik denk dat hiermee een echt volledig geautomatiseerd proces niet goed mogelijk is, maar er is wel veel tijdwinst te maken op de gewone gevallen zodat de mensen zich bezig kunnen houden met behandelen van de lastige aanvragen. En dat blijft als thema maar terugkomen: AI pikt geen banen in maar maakt ze leuker.

Arnoud

Het onderbelichte probleem van dataverzameling in de artificial intelligence

| AE 9913 | Innovatie | 14 reacties

Bewerking/parodie van XKCD, bron https://xkcd.com/303/Jaja, vrijdag wordt machine learning/AI dag, maar ik vond vrAIdag zo’n rare hashtag. Deze week een netelige en vaak onderbelichte kwestie: hoe kom je aan je data? Veel mensen denken dat het bij AI vooral gaat om het bouwen van het netwerk, maar dat is in feite niet meer dan op de “Generate” knop drukken en het ding een nachtje laten stampen. AI als technologie is vrijwel een commodity. Het gaat erom wat je erin stopt, want dat bepaalt voor vrijwel 100% wat eruit komt. En daar zit hem het probleem.

AI en big data lijken als hype hand in hand te zijn opgekomen. En dat is niet gek, want AI is in feite weinig meer dan statistische analyse op grote datasets, en hoe groter de dataset, hoe accurater de uitkomsten van de analyse. Dus als je gigantisch veel data hebt, dan krijg je behoorlijk goede resultaten. Maar hoe kom je aan die data?

Er zijn grofweg twee manieren: je kunt alle data zelf verzamelen, of je kunt datasets van anderen betrekken. De eerste manier is behoorlijk duur en tijdrovend, en werkt eigenlijk alleen bij de grote platforms zoals Facebook die nu eenmaal heel veel mensen hebben die data genereren. Of onderzoeksinstellingen die grootschalige metingen kunnen doen op allerlei fenomenen. Voor veel partijen is er alleen de tweede manier: zie ergens een dataset te pakken te krijgen.

Die tweede manier is nog behoorlijk problematisch. Vanwege rechtenkwesties en natuurlijk de zorg over persoonsgegevens in de data wordt vaak teruggegrepen op publieke datasets. Uit een recent paper blijkt echter dat dit goed kan leiden tot bias in de AI. Zo is er een publieke dataset van 1,6 miljoen interne e-mails uit het controversiële bedrijf Enron, welke vanwege justitieel onderzoek openbaar zijn geworden. Deze zijn een mooie dikke dataset om sentimentanalyse te doen, grammatica te leren herkennen en ga zo maar door. Maar goh, wat voor voorbeeld neem je als je de mails gebruikt van een Texaans bedrijf dat omviel vanwege gigantische fraude?

Andere systemen worden gebouwd op basis van stokoude bronnen, zoals publiekdomeinboeken omdat je dan auteursrechtelijk veilig zit. Maar het doet nogal wat met een systeem of je hem traint op Charles Dickens dan wel Dan Brown (om mevrouw Van der Plas niet weer te noemen 😉 ). Taalgebruik zal verouderd zijn, en vooral: ook hier een grote kans op vooringenomenheid qua wereldbeeld.

En daar zit dus in de kern het probleem: de datasets waar iedereen mee kan werken, zitten scheef en leveren dus geen betrouwbare basis op voor een AI systeem dat aanbevelingen of beslissingen doet. En waar je mee zou moeten werken, zit opgesloten achter auteursrechten of is onbereikbaar omdat de eigenaar het als privé beschouwt.

Arnoud

Wanneer heeft een kunstmatige intelligentie auteursrecht op een filmscript?

| AE 9402 | Auteursrecht | 16 reacties

Een kunstmatige intelligentie (AI) schrijft alle tekst voor David Hasselhoff in een nieuwe korte scifi-film, las ik bij Tweakers. De AI heeft een grote databank met filmteksten, en componeert daarmee nieuwe combinaties (via een LSTM) die acteur David Hasselhoff dan uitspreekt. Wat de vraag oproept, van wie zijn die teksten eigenlijk? Hoofdregel uit de auteurswet… Lees verder

Kunstmatige intelligentie kan uitspraken Europees Hof Mensenrechten voorspellen

| AE 9033 | Innovatie | 15 reacties

Nou nou, poe poe. Een AI systeem ontwikkeld aan de University College London, the University of Sheffield, and the University of Pennsylvania kan uitspraken van het hoogste Europese mensenrechtenhof voorspellen, las ik bij Ars Technica. Men had het systeem 584 uitspraken gevoerd en op basis daarvan wist het in 79% van de gevallen correct de… Lees verder

Mag je een kunstmatige intelligentie klonen via zijn API?

| AE 8991 | Innovatie | 20 reacties

Het stelen van een AI is eenvoudiger dan je denkt, las ik bij Wired. Hoewel de algoritmes voor zelfdenkende en -lerende systemen uiteraard als supergeheim en bizar waardevol gezien worden, blijkt het mogelijk de werking vrijwel exact te repliceren. Mag dat? De basis van vrijwel alle zelflerende systemen is in principe hetzelfde. Je voert het… Lees verder

Moeten we de aansprakelijkheid van autonome auto’s aan advocaten overlaten?

| AE 8740 | Aansprakelijkheid, Innovatie | 38 reacties

Bergen rechtszaken zijn de belangrijkste hobbels (haha) waar de zelfrijdende auto overheen zal moeten zien te komen, las ik in Slate. Zolang de aansprakelijkheid van eigenaar, passagiers en fabrikant niet duidelijk zijn, zal de adoptie van deze voertuigen onnodig langzaam blijven lopen. Hoe lossen we dat op bij zoiets snel evoluerends als autonome auto’s? Simpel,… Lees verder