Politiek wil waakhond op algoritmes, maar ik heb liever een keurmerk voor de trainingsdata

| AE 11336 | Innovatie | 14 reacties

De Nederlandse politieke partijen D66 en CDA roepen het kabinet dinsdag in een motie op toezichthouder op te zetten die het gebruik van algoritmes bij de overheid in de gaten houdt. Dat las ik bij Tweakers maandag. De macht van algoritmes is een steeds grotere angst aan het worden: ze zijn niet transparant, ze kunnen al snel discrimineren of oneerlijk behandelen en ambtenaren voelen zich vaak verplicht om te doen wat het algoritme zegt in plaats van hun eigen afwijkende opvatting over de zaak door te zetten. Een loffelijk idee, alleen vergeten ze weer waar het eigenlijk om gaat: it’s the data, stupid.

Aanleiding voor het voorstel is eerdere berichtgeving van de NOS over de macht van algoritmes. Schokkend vond ik vooral dat niet duidelijk was waar en hoe men geautomatiseerde besluitvorming toepast, de NOS had vele wob verzoeken nodig om een en ander een tikje inzichtelijk te krijgen. De richtlijn moet duidelijk maken in welke gevallen gebruik van algoritmes wel of niet gerechtvaardigd is. Of er een volledig nieuwe toezichthouder moet komen of dat bijvoorbeeld de Autoriteit Persoonsgegevens extra bevoegdheden krijgt, moet nog worden besloten.

Een algoritme is een reeks instructies die door een computer wordt uitgevoerd, zo meldt de NOS netjes. Alleen hebben we het hier niet over algoritmes in klassieke zin, zoals in het stroomschema hier rechtsboven. Een klassiek algoritme is als een taartrecept: doe eerst dit, als de temperatuur hoog genoeg is doe dan dat, doe daarna zus tenzij X want dan zo. En computers gaan dat dan rechtlijnig uitvoeren. (Kennen jullie die van de programmeur die totaal uitgeput uit zijn douche werd gehaald? Op de shampoofles stond namelijk: haren natmaken, shampoo aanbrengen, uitspoelen, herhalen.)

Dergelijke algoritmes worden top-down ontworpen. Begin met de hoofdlijnen, zoek de simpele randgevallen en voeg daar uitzonderingen voor toe, draai het een paar keer en voeg extra uitzonderingen of bijzondere regels toe. Dat groeit door de tijd heen, maar in principe is elke stap bewust genomen en iedere uitbreiding weloverwogen. In theorie is daarmee iedere stap uit te leggen.

De algoritmes waar dit voorstel over gaat, zijn echter geen klassieke algoritmes. Ik zou dit haast kunstmatige intelligentie noemen maar het is gewoon machine learning: het zoeken naar trends en verbanden op basis van grote bakken met data. Eigenlijk gewoon statistiek: in deze bak data zijn dit de fraudeurs en dit niet, en dan flink doorrekenen wat die gemeenschappelijk hebben om zo een voorspellende functie te bedenken die voor een nieuwe aanmelding zegt of deze fraudeur is.

Die voorspellende functie, geladen met die data, is dan een algoritme in de zin dat het een reeks instructies is – maar praktisch gezien is het onvergelijkbaar met die klassieke algoritmen. Sterker nog: ik durf wel te zeggen dat die functie an sich totaal niet interessant is. Daar zijn er genoeg van, en hoewel ieder deep neural net vast zijn eigen prachtige theorie en implementatie heeft, is dat niet waar het om gaat. Laad datzelfde net met nieuwe data en je krijgt iets compleet anders.

Het gaat dus om die data en niets anders. Welke data gaat erin, hoe is die samengesteld en hoe wordt geborgd dat dit een eerlijke en objectieve samenstelling is? Want dáár komt al die ellende van. Vaak is data uit beperkte bron geselecteerd, of ergens aangekocht, en in ieder geval is ‘ie niet getest op representativiteit en actualiteit. Daar gaat het dan meteen mis, want met slechte brondata ga je natuurlijk nooit goede voorspellingen doen. Maar het enge is, het lijken bij het testen best goede voorspellingen want je houdt altijd een stukje van je brondata apart om eens mee te testen. En ik geloof onmiddellijk dat je dan goede uitkomsten krijgt. Logisch, het is dezelfde bron en op dezelfde manier gecategoriseerd.

Ik zou er dus hard voor willen pleiten om geen tijd te verspillen aan die algoritmes, maar juist de problemen bij de bron te bestrijden: geen data de overheid in tenzij met keurmerk. De data moet kloppen, eerlijk zijn en volledig. Dáár een toezichthouder voor lijkt me een prima idee.

Arnoud

In Estland denken ze dat AI een eerlijke rechter kan zijn

| AE 11279 | Innovatie | 9 reacties

De Baltische staat Estland timmert al geruime tijd fors aan de weg met wat wij e-government zouden noemen: innovatief en digitaal diensten aan de burger aanbieden, van een elektronische identiteitskaart tot een compleet online loket. Veilig, snel en goedkoop. En AI oftewel machine learning speelt daarbij een steeds grotere rol. Mede gedreven vanuit de behoefte aan een kleinere overheid reduceert men het aantal ambtenaren continu, om daar AI-gedreven diensten voor in de plaats te zetten. De laatste kandidaat: de rechtspraak. Zou dat wel goed gaan?

Het Estse ministerie van Justitie heeft onlangs chief data officer Ott Velsberg gevraagd een digitale rechtbank te ontwikkelen die volautomatisch kantonzaken – tot 7.000 euro – kan vonnissen. Velsberg is geen nieuwkomer: zijn team ontwikkelde eerder een hooiveldscanner waarmee subsidies voor braakliggend land konden worden gecontroleerd, en een banenmatcher voor de uitkeringsinstantie zodat gerechtigden eerder passend werk konden vinden. En nu dus de rechtspraak.

Een groot voordeel voor Estland is dat nu zo veel al geautomatiseerd is, het maar een kleine stap voelt om ook je juridische claims online in te dienen en te laten behandelen. Al dan niet met advocaat natuurlijk. Wel een grote stap verder is het automatisch laten behandelen – en dus een vonnis krijgen – van zo’n claim, zonder menselijke tussenkomst.

Helaas is er nog weinig in detail gepubliceerd over hoe het systeem moet gaan werken, maar het lijkt het bekende stramien van AI oftewel machine learning te zullen volgen. Voed het systeem met zo veel mogelijk oude zaakdossiers, koppel daaraan de uitspraak en laat het systeem ‘kauwen’ op die gegevens om lijnen en voorspellers te ontdekken. Vervolgens kun je nieuwe dossiers in het systeem plaatsen, die dan langs die lijnen worden gehouden om te zien of ze wel dan niet moeten worden toegepast.

Dit lijkt enigszins op hoe rechters nu ook werken: op basis van ervaring prik je snel door argumenten heen, zie je wat ontbreekt in het dossier of wat opmerkelijk is. En daar kun je dan een conclusie op bouwen. Maar een belangrijk verschil is natuurlijk dat een AI totaal niet de inhoud van het dossier analyseert, maar afgaat op rekensommetjes met die inhoud.

Een risico is dan ook dat een AI-rechtbank op basis van de verkeerde soort informatie conclusies trekt. Zo zou het kunnen gebeuren dat de meeste winnende eisers in de Estse hoofdstad Tallinn gevestigd zijn. Toeval, maar voor een AI significant. Die zou dan in een twijfelzaak deze vestigingsplaats de doorslag laten geven.

Natuurlijk kun je dat soort zaken proberen te filteren, bijvoorbeeld door NAW-gegevens te anonimiseren, maar dingen kunnen door blijven schemeren. Het Amerikaanse bedrijf Amazon ontdekte bijvoorbeeld dat hun sollicitatie-AI sterk de voorkeur gaf aan mannen, ook nadat men het geslacht van de kandidaat had geblokkeerd voor de brievenlezende robot. Het geslacht kon immers worden afgeleid uit hobby’s als vrouwentennis, waar natuurlijk maar weinig mannen aan meedoen. En als je ook dat verwijdert, zijn er misschien factoren als veel deeltijdbanen hebben bekleed.

Het onderliggende probleem is uiteindelijk altijd bij dit soort systemen dat zij alle data als even relevant behandelt. Dit terwijl mensen hoofd- en bijzaken kunnen scheiden, en weten dat de aanschaf van een bankstel dezelfde soort geldschuld geeft als de aanschaf van een auto. Dergelijke abstracties kunnen AI’s compleet niet maken.

Dat wil niet zeggen dat AI’s onmogelijk zijn in de rechtspraak. Een simpele variant zou een dossierchecker zijn: een zoektocht naar een ingebrekestelling in een dossier komt neer op tekstherkenning, iets waar computers beter in zijn dat mensen. En een claim wegens schadevergoeding zonder ingebrekestelling kan dan eenvoudig worden afgehandeld. AI helpt dan bij het zoeken naar feiten, naar invoer waarmee juridische regels worden ingezet. En dat lijkt me een betere verdeling van de respectieve krachten.

Arnoud

Facebook overtreedt mogelijk AVG door medewerkers posts te laten labelen

| AE 11265 | Ondernemingsvrijheid | 13 reacties

Facebook overtreedt mogelijk de Europese privacyverordening AVG door medewerkers van daarvoor aangestelde bedrijven te laten kijken naar posts om ze te labelen. Dat las ik bij Tweakers maandag. Een team van 260 mensen uit India leest al jaren alle berichten (inclusief foto’s) om die van labels te voorzien, zo ontdekte Reuters namelijk. Die labels classificeren de berichten in vijf “dimensies”, zodat Facebook kan leren van wat mensen posten en hoe daarop in te springen. En er zal ook vast een AI mee getraind worden. De privacyzorg zit hem dan in het feit dat er geen aparte toestemming is gevraagd voor dit labelen. Maar moet dat dan, van de AVG?

De AVG kent inderdaad de eis van toestemming – maar naast toestemming zijn er nog vijf zogeheten grondslagen om met persoonsgegevens te werken. Als je gegevens bijvoorbeeld nodig hebt om een contract af te handelen, dan heb je geen toestemming nodig. Webshops die aanvinkvakjes inbouwen met “ik geef toestemming bovenstaande gegevens te gebruiken om mijn bestelling te behandelen” snappen er dus niets van. Die toestemming is helemaal niet nodig.

De controversieelste grondslag is die van het “eigen gerechtvaardigd belang”. Dan zeg je namelijk, ik heb een belang als bedrijf om dit gewoon te gaan doen, maar ik heb wel rekening gehouden met je privacy door maatregelen A en B te nemen. Controversieel, omdat je hiermee eigenlijk weigert de ander te vragen om toestemming en veel mensen gewoon verwachten dat je toestemming vraagt waar nodig. Maar ook weer gerechtvaardigd omdat je soms nu eenmaal geen toestemming kúnt vragen. Een triviaal voorbeeld is camerabewaking of fraudedetectie in je betaalpatronen.

Facebook vraagt dus geen toestemming om berichten die post (of als privébericht verstuurt) voor te leggen aan haar labelingsteam. Dat zouden ze dus moeten rechtvaardigen onder dat eigen belang. Het belang zie ik: je herkenning van soorten berichten verbeteren is een wenselijk en nuttig doel, zeker gezien de druk op Facebook om terrorismeverheerlijking, nepnieuws, opruiing en dergelijke te kunnen detecteren en weren.

De discussie die je dan krijgt, is in hoeverre Facebook dit kan rechtvaardigen. En dat komt vaak neer op hoe zeer men rekening houdt met de privacy van personen. Mijn juridische onderbuik zegt dat een bericht tonen aan een intern team dat er een label op plakt (pardon, “verrijkt met een AI-ready dimensie”, dank u marketingafdeling) niet heel erg een inbreuk op de persoonlijke levenssfeer is. Het label heeft geen enkel gevolg voor het bericht zelf, dit wordt niet verwijderd of aangepast op basis van de beoordeling. Plat gezegd, hier merk je niets van.

Twijfel heb ik wel bij het stukje van de privéberichten, want ook die worden gelezen. Het voelt principieel niet juist om een direct bericht tussen A en B te lezen en te taggen, ook niet als die tag verder nergens gebruikt wordt. Dat is gewoon privé, afblijven. Maar ik kan niet ontkennen dat ook hier het argument “je merkt er niets van” opgaat.

Arnoud

EU test nepwetenschappelijke leugendetector bij grenscontroles

| AE 10949 | Regulering | 16 reacties

Wat bizar: in Griekenland, Hongarije en Letland begint een test van de Europese Unie met een leugendetector bij de grenscontrole, las ik bij Tweakers. Het iBorderCtrl-systeem analyseert ‘microgezichtsuitdrukkingen’ van reizigers om te controleren of ze de waarheid vertellen. Niet alleen is deze test gebaseerd op onderzoek waarbij slechts 32 vrijwilligers betrokken waren als proefpersonen, er… Lees verder

Mag een AI gaan bellen voor een afspraak bij de kapper?

| AE 10682 | Innovatie | 9 reacties

Restaurants en kapsalons kunnen zich afmelden voor Duplex, waarin digitale assistent Google Assistant belt met restaurants en kapsalons. Dat meldde Tweakers onlangs. De digitale assistent is ontworpen om afspraken en dergelijke telefoontjes te regelen, zodat mensen dat niet zelf hoeven te doen. De gesprekservaring vind ik indrukwekkend, maar het roept natuurlijk wel wat juridische vragen… Lees verder

Het gaat bij AI niet om algoritmes, het gaat om de data die je erin stopt

| AE 10622 | Innovatie | 15 reacties

Steeds vaker lees ik over aandacht voor AI en algoritmes bij de politiek. Een goeie ontwikkeling, zeker omdat AI software steeds vaker ingezet wordt om bestuur te ondersteunen. Bijvoorbeeld het selecteren van cold cases waar potentie in zit of herkennen van potentiële onrust zodat je de geweldprotesten voor kunt zijn. Steeds vaker lees ik daarbij… Lees verder

Goh, lawyerbots zijn beter dan juristen in het lezen van saaie juridische documenten

| AE 10505 | Informatiemaatschappij | 6 reacties

Alweer ietsje langer geleden maar toch: in een ‘wedstrijd’ tussen een lawyerbot van het Israëlische LawGeex en twintig Amerikaanse advocaten bleek de eerste een stuk beter in staat om juridische fouten in NDA’s en andere documenten te vinden. Om precies te zijn: de AI was 94% accuraat waar de mensen rond de 85% scoorden. Dit… Lees verder

Wie gaat er nou zijn NDA’s in de blockchain stoppen?

| AE 10422 | Innovatie | 7 reacties

Powered by AI and blockchain, het nieuwe boek van Willem Vermeend en Rian van Rijbroek? Nee, de tagline van het World NDA project van het Global Legal Blockchain Consortium, blockchainprovider Integra en AI-leverancier IBM. Het project heeft als doel “the reduction of burden, cost, and risk associated with the current NDA lifecycle”, wat kennelijk betekent… Lees verder

AI-lawyerbot visualiseert gebruiksvoorwaarden

| AE 10397 | Innovatie | 5 reacties

Onderzoekers van de Zwitserse technische Universiteit EPFL hebben een ai-bot online gezet die gebruiksvoorwaarden leest en omzet in een overzichtelijk stroomdiagram, las ik bij Tweakers. Er is ook een chatbot-interface waarmee je vragen kunt stellen, en de bot zoekt de meest relevante zinen er dan bij. Het nut van het stroomdiagram ontgaat me, maar het… Lees verder