Het gaat bij AI niet om algoritmes, het gaat om de data die je erin stopt

| AE 10622 | Innovatie | 15 reacties

Steeds vaker lees ik over aandacht voor AI en algoritmes bij de politiek. Een goeie ontwikkeling, zeker omdat AI software steeds vaker ingezet wordt om bestuur te ondersteunen. Bijvoorbeeld het selecteren van cold cases waar potentie in zit of herkennen van potentiële onrust zodat je de geweldprotesten voor kunt zijn. Steeds vaker lees ik daarbij ook dat men inzicht wil in de algoritmes, en dát voelt voor mij als de verkeerde insteek. It’s the data, stupid.

Om een of andere reden is het woord ‘algoritme’ recent populair geworden als korte omschrijving voor computeranalyses waarmee dit soort zaken worden geregeld. Van het customizen van een newsfeed tot het detecteren van criminaliteit in historische politiegegevens, het heet allemaal “algoritme”. Ergens klopt dat ook wel: een algoritme is “een eindige reeks instructies die vanuit een gegeven begintoestand naar een beoogd doel leidt” (Wikipedia), en al die systemen gebruiken een serie instructies om gegeven een bak met data te komen tot het beoogde doel van een voorspelling.

Alleen: die stappenplannen of reeksen instructies zijn op zichzelf helemaal niet zo spannend of bijzonder. Meestal gaat het om machine learning algoritmes, die op zoek gaan naar samenhang tussen factoren in een groot databestand om zo tot voorspellingen te komen. We zien dat terechte klachten over partnermishandeling samengaan met het wonen in een rijtjeshuis, deze klacht komt uit een rijtjeshuis dus grote kans dat ie terecht is, ga er maar heen. (De achterliggende factor is dan dat buren het horen en bellen, wat meer zekerheid geeft.)

Het algoritme dat dit doet, is echter volstrekt niet ontworpen of aangepast om specifiek die samenhang te zoeken. Gooi je er honderdduizend telecomcontracten in inclusief opzegdatum, dan kan hij met dezelfde instructies uitrekenen welke klanten waarschijnlijk gaan verlengen en welke niet. Het algoritme hoef je daarvoor niet aan te passen, meer dan aangeven wat de uitvoervariabele moet zijn is het in de praktijk eigenlijk niet.

Het gaat om de data. Wat erin gaat, bepaalt wat eruit komt. Daar hebben we het al vaker over gehad: foute data erin is natuurlijk foute data eruit, of dat nu vooringenomenheid is, kortzichtige selectiviteit of typefouten doet er dan verder niet toe. Maar als je als politiek wat wilt doen aan de betrouwbaarheid en vooral de eerlijkheid van AI, dan moet je het niet hebben over de algoritmes maar over de data. De data bepaalt voor 100% wat het systeem gaat zeggen. Je wilt dus inzicht in de data, en regels over de data.

Arnoud

Weten hoe de computer werkt, is een mensenrecht

| AE 10587 | Innovatie | 48 reacties

Gemeenten gebruiken data over hun inwoners om problemen op te sporen voor ze uit de hand lopen, las ik in NRC Handelsblad. Handig dat datagedreven beleid, maar voor de burger stijgt de kans te worden afgerekend op voorspeld gedrag. En dat is een probleem, zelfs als je betoogt dat de gemeente zo gerichter kan handhaven omdat ze aan die data kan zien wie ze moet hebben in plaats van ongericht overal te gaan kijken. Want – bekend thema ondertussen – probeer maar eens te achterhalen wát de regels zijn waarop je dan afgerekend wordt. Toch een niet onbelangrijk thema binnen een rechtsstaat.

Datagedreven beleid, heet het. Het onbekende in kaart brengen als gemeente met data, en dat kan variëren van het voorspellen van de vervangingstermijn van vuilniswagens tot de tijd tussen schoonmaakacties. Maar meestal gaat het over mensen: kans op depressies, armoede en “leefbaarheidsproblemen”.

Uniek aan dit beleid is dat het vaak voor iedereen een black box is. Ook voor de ambtenaren zelf: er is data genoeg en de uitkomsten blijken bruikbaar, maar hoe het systeem nu precies van data tot uitkomst komt, blijft in het ongewisse.

Maxim Februari, filosoof en columnist van NRC, vindt dat kwalijk. „Een belangrijk principe van de rechtsstaat is dat burgers weten welke regels er zijn. Zo kunnen ze zich er ook tegen verweren, bijvoorbeeld door ze met een rechtszaak of met nieuwe wetgeving te veranderen.”

Het blijkt echter hardnekkig om te achterhalen hoe die algoritmes en datastromen werken in de praktijk. Onder de Wob slaagde Februari en consorten er niet in om hierachter te komen. Misschien dat het met een beroep op de AVG wel lukt: die eist immers uitlegbaarheid van je algoritmes die tot persoonsgebonden besluiten komen.

Ik blijf twijfels houden over de impact daarvan. Want AI en machine analyses werken niet zoals mensen. Het voelt dan ook wat onlogisch om te verwachten dat er uitleg uit komt die past bij wat mensen verwachten.

Een ding waar machine learning heel goed in is, is het vinden van correlaties. Vaak blijken dat ook zeer relevante correlaties en zal het aanpakken langs die as er ook voor zorgen dat problemen verminderen. Maar bewijs dat de correlatie ook een causatie is, is er vaak niet. Dus dan kom je niet verder dan “we zien opvallend vaak dat mensen met duizend volgers op Instagram en likes van de hangplek vroege schoolverlaters zijn”. Dat is waarschijnlijk wel wáár en ik kan achteraf ook wel een redenering daarbij verzinnen, maar bewijs is het niet.

Ik hoop heel erg dat ik het mis heb en dat we wel in staat blijken om causale redeneringen toe te voegen aan zulke systemen. Het nut van geautomatiseerde analyses zie ik namelijk wel bij beslisondersteuning en preselectie van overheidshandelen, maar zolang de uitleg afwezig of onbegrijpelijk blijkt, heb je er niets aan.

Arnoud

Goh, lawyerbots zijn beter dan juristen in het lezen van saaie juridische documenten

| AE 10505 | Informatiemaatschappij | 6 reacties

Alweer ietsje langer geleden maar toch: in een ‘wedstrijd’ tussen een lawyerbot van het Israëlische LawGeex en twintig Amerikaanse advocaten bleek de eerste een stuk beter in staat om juridische fouten in NDA’s en andere documenten te vinden. Om precies te zijn: de AI was 94% accuraat waar de mensen rond de 85% scoorden. Dit is natuurlijk nieuws omdat het de eerste wedstrijd in deze soort is, maar verbaast het echt dat een computer beter dingen kan vinden in een document dan mensen?

Je kunt natuurlijk aan alle kanten vraagtekens zetten bij het onderzoek (je bent professional issue spotter of je bent het niet). Hoe definieer je accuratesse, bijvoorbeeld? Is er werkelijk een objectieve gouden standaard van ‘fouten’ in een contract, of is dat wezenlijk een subjectieve inschatting waar twee juristen legitiem andere opvattingen over kunnen hebben bij dezelfde casus? Als ik iets laat staan omdat ik weet dat het praktisch gezien nooit speelt, en de AI het als fout signaleert omdat het volgens een rechtenprof in strijd is met de wet, wie heeft er dan gelijk?

Belangrijker voor mij (en de reden dat ik het eigenlijk negeerde, maar ik kreeg diverse mails erover) is echter dat dit onderzoek niets aantoont dat we niet al wisten. Een computer is haast per definitie altijd beter in het herkennen van patronen dan mensen, zeker als het steeds dezelfde soort patronen zijn over de lange termijn. Dat is bij het herkennen van vuurwapens in bagage niet anders dan het herkennen van rare clausules in juridische documenten.

Toegegeven, het bóuwen van zulke herkensoftware is niet eenvoudig. Hoe herken je effectief een juridische clausule in al zijn variaties, inclusief raar taalgebruik en fouten die al dan niet opzettelijk zijn gemaakt? Maar als het eenmaal staat, dan is het volgens mij volstrekt evident dat die het gaat winnen van iedere mens die in dat domein gaat opereren. Geen douanebeambte die een jaar lang ieder verboden artikel in bagage herkent, maar een computer gaat met dezelfde kwaliteit door totdat de stroom eraf gaat.

Dat is geen nieuws maar ook totaal niet erg – dit noemen we automatiseren van standaardwerk en het is precies waar AI binnen de legal tech voor bedoeld is. Het kan niet waar zijn dat we mensen werk willen laten doen dat net zo goed door robots gedaan kan worden. Binnen de juridische sector gebeurt dat echter veel en vaak, en hoe meer ik er over nadenk hoe raarder ik het vind. Er van dromen een vlammend pleidooi in de rechtbank te geven of keihard te onderhandelen en die droomdeal te sluiten, dat zie ik wel. Maar welke rechtenstudent droomt ervan contracten na te lopen op al dan niet onjuist gebruik van “represents and warrants” of het corrigeren van “grove nalatigheid” in “bewuste roekeloosheid?

Ik hoop dus dat berichten zoals deze vaker voorkomen, ook al bevatten ze niets nieuws. Hopelijk dringt hierdoor de boodschap door dat AI écht wat kan toevoegen in de juridische sector.

Arnoud

Wie gaat er nou zijn NDA’s in de blockchain stoppen?

| AE 10422 | Innovatie | 7 reacties

Powered by AI and blockchain, het nieuwe boek van Willem Vermeend en Rian van Rijbroek? Nee, de tagline van het World NDA project van het Global Legal Blockchain Consortium, blockchainprovider Integra en AI-leverancier IBM. Het project heeft als doel “the reduction of burden, cost, and risk associated with the current NDA lifecycle”, wat kennelijk betekent… Lees verder

AI-lawyerbot visualiseert gebruiksvoorwaarden

| AE 10397 | Innovatie | 5 reacties

Onderzoekers van de Zwitserse technische Universiteit EPFL hebben een ai-bot online gezet die gebruiksvoorwaarden leest en omzet in een overzichtelijk stroomdiagram, las ik bij Tweakers. Er is ook een chatbot-interface waarmee je vragen kunt stellen, en de bot zoekt de meest relevante zinen er dan bij. Het nut van het stroomdiagram ontgaat me, maar het… Lees verder

Hoe AI een rol kan spelen in juridische besluitvorming

| AE 10025 | Innovatie | 9 reacties

De rol van AI voor juridische toepassingen is snel aan het groeien. Steeds meer diensten onderzoeken de mogelijkheden om kunstmatige intelligentie adviezen te laten geven of zelfs juridische besluiten te nemen. Welke mogelijkheden zijn daar voor organisaties zoals overheden, verzekeraars of keurende instanties om hun organisatie efficiënter te laten werken? En welke juridische risico’s zitten… Lees verder

Het onderbelichte probleem van dataverzameling in de artificial intelligence

| AE 9913 | Innovatie | 14 reacties

Jaja, vrijdag wordt machine learning/AI dag, maar ik vond vrAIdag zo’n rare hashtag. Deze week een netelige en vaak onderbelichte kwestie: hoe kom je aan je data? Veel mensen denken dat het bij AI vooral gaat om het bouwen van het netwerk, maar dat is in feite niet meer dan op de “Generate” knop drukken… Lees verder

Wanneer heeft een kunstmatige intelligentie auteursrecht op een filmscript?

| AE 9402 | Intellectuele rechten | 16 reacties

Een kunstmatige intelligentie (AI) schrijft alle tekst voor David Hasselhoff in een nieuwe korte scifi-film, las ik bij Tweakers. De AI heeft een grote databank met filmteksten, en componeert daarmee nieuwe combinaties (via een LSTM) die acteur David Hasselhoff dan uitspreekt. Wat de vraag oproept, van wie zijn die teksten eigenlijk? Hoofdregel uit de auteurswet… Lees verder

Kunstmatige intelligentie kan uitspraken Europees Hof Mensenrechten voorspellen

| AE 9033 | Innovatie | 15 reacties

Nou nou, poe poe. Een AI systeem ontwikkeld aan de University College London, the University of Sheffield, and the University of Pennsylvania kan uitspraken van het hoogste Europese mensenrechtenhof voorspellen, las ik bij Ars Technica. Men had het systeem 584 uitspraken gevoerd en op basis daarvan wist het in 79% van de gevallen correct de… Lees verder