Een black box algoritme mag geen juridische besluiten nemen

| AE 11004 | Innovatie | 9 reacties

De zwarte doos roept steeds meer zorgen op. En dan bedoel ik niet de (overigens feloranje) kast in vliegtuigen waar informatie over crashes te vinden is, maar de zogeheten black box algorithms die zonder inzicht in hun werking een uitkomst geven. In het jargon van de ‘meme’ of internetgrap: “Computer says no”. Een zorgelijke ontwikkeling immers als je bedenkt dat steeds meer besluitvorming dankzij dergelijke algoritmes plaatsvindt. Een gebrekkige motivatie zou men bij menselijk genomen besluiten niet accepteren, dus waarom dan wel bij computers? Gelukkig heeft onze Hoge Raad nu een uitspraak gedaan die een harde lijn trekt tegen zulke besluitvorming.

De term ‘algoritme’ is in dit verband een tikje misleidend. Een algoritme is een eindige reeks instructies die vanuit een gegeven begintoestand naar een beoogd doel leidt. Meestal worden deze instructies door een computer uitgevoerd. In beginsel is er dus niets ondoorzichtigs of mysterieus aan een algoritme. “Ga na of betrokkene de leeftijd van 67 jaar heeft bereikt en zo ja ga over tot AOW-uitkering” is een volkomen transparant algoritme, dat iedere SVB-ambtenaar kan uitvoeren.

De meeste algoritmes zijn echter een stuk complexer, en drijven steeds vaker op zogeheten machine learning constructies in plaats van ouderwets ontworpen procedures. Klassieke algoritmes worden opgezet als stappenplannen van bovenaf, en verfijnd of uitgebreid als de regels ingewikkelder worden of uitzonderingen moeten worden ingevoerd. In bovengenoemd voorbeeld zou eigenlijk de deelregel horen “als betrokkene na 31 december 1954 en voor 1 oktober 1955 is geboren, neem dan de leeftijd van 67 jaar en 3 maanden”. Latere wetgeving kan nog meer regels doorvoeren, zoals wat te doen als iemand vele jaren in het buitenland heeft gewoond. Dit alles blijft relatief overzichtelijk.

Machine learning algoritmes werken van onderaf. Zij analyseren bestaande historische gegevens en destilleren daaruit patronen, die vervolgens worden omgezet in regels. Een dergelijk algoritme zou bijvoorbeeld uitkeringsfraude kunnen detecteren door in uitgavenpatronen van gerechtigden te zoeken naar voor fraude typische handelingen zoals op onregelmatige momenten grote bedragen ontvangen of vanaf de 15e van de maand niets meer te pinnen (omdat dan het zwart geld handje contantje wordt ontvangen).

Deze algoritmes zijn dus niet met vooraf opgestelde regels geformuleerd, maar kunnen uitsluitend vaststellen of een nieuwe casus voldoet aan het gedetecteerde patroon. Zo’n patroon is dan niet eenvoudig verklaarbaar, althans niet in een vorm waar mensen genoegen mee nemen. Effectief komt het algoritme niet verder dan “uw gedrag lijkt heel sterk op dat van fraudeurs, dus bent u volgens ons een fraudeur”. Nadere uitleg waaróm men dan lijkt, blijft vaak achterwege of komt neer op een opsomming van factoren waar moeilijk een voor juristen herkenbare regel van te maken is.

Een bijkomstigheid is dat dergelijke algoritmes vaak worden ontwikkeld door private bedrijven, die de effectiviteit van hun algoritme als belangrijkste verkoopargument aandragen. Het is dan ook essentieel voor hen dat zij geen inzicht hoeven te geven in de details van het algoritme, immers anders doet de concurrent morgen hetzelfde. Ook daardoor is sterk het beeld ontstaan dat algoritmes ondoorzichtige dozen zijn, er mag immers niet in worden gekeken.

Wanneer dergelijke algoritmes worden ingezet voor juridische besluitvorming, ontstaat een groot probleem. Een bestuursorgaan of rechtbank neemt dan een besluit, waarbij een deel van de motivatie gebaseerd is op een ondoorzichtige doos die ja of nee zegt. Een heldere motivatie is kern van een goede besluitvorming. Immers het is de motivatie waarop men een besluit in hoger beroep aanvecht.

Terecht dan ook dat de Hoge Raad bij arrest van 18 augustus een duidelijke streep in het zand trekt: wanneer een bestuursrechtelijk besluit geheel of ten dele het resultaat is van een geautomatiseerd proces, moet het bestuursorgaan zorgdragen voor de inzichtelijkheid en controleerbaarheid van die keuzes, aannames en gegevens. Anders kan een belanghebbende de juistheid van de bij dat geautomatiseerde proces gemaakte keuzes en van de daarbij gebruikte gegevens en aannames niet controleren en betwisten.

De zaak betrof de modelmatige waardebepaling in het kader van de uitvoering van de Wet WOZ. Deze waardebepaling vindt in eerste aanleg geautomatiseerd plaats. Hiertoe worden door (nagenoeg uitsluitend externe) softwareontwikkelaars taxatiemodellen ontworpen die per gemeente worden gevuld met de relevante objectgegevens en de beschikbare verkoopinformatie. Op grond van modelmatige analyse worden in het taxatiemodel onder meer staffels berekend die kunnen worden gebruikt voor het bepalen van de grondwaarde van het te taxeren object, met inachtneming van het type object en de ligging van de onroerende zaak. De staffels zijn opgenomen in de software en dus niet inzichtelijk voor de ambtenaren die ermee werken, laat staan voor de betrokkenen die de waardebepaling aangezegd krijgen.

De Hoge Raad ziet een dergelijke manier van werken in strijd met fundamentele beginselen van een goede besluitvorming. Een belanghebbende kan in geval van besluitvorming op basis van een computerprogramma dat vanuit zijn perspectief is te beschouwen als een zogenoemde “black box” immers niet controleren op basis waarvan tot een bepaald besluit wordt gekomen. Het is dan onmogelijk een fatsoenlijk bezwaar daartegen te formuleren. Het verbaast dan ook niet dat de HR de betrokkene gelijk geeft.

Terug naar de tekentafel, of eigenlijk rekentafel dus voor de gemeente. Echter, dat roept de vraag op hoe een nieuw besluit dan wél fatsoenlijk tot stand kan komen. Het is immers het gewone werkproces waarbij deze gegevens als black box worden gebruikt. In feite zou de gemeente nu de staffels opnieuw moeten construeren en als transparante tabellen moeten aanbieden, zodat ze als duidelijke onderbouwing en grondslag kunnen dienen. Dat zal buitengewoon veel werk kosten, en dat was nu precies waarom men die software van derden afnam.

Een ander probleem is dat dergelijke nieuwe staffels mogelijk minder van kwaliteit zullen zijn. De bestaande ontransparante staffels voldoen namelijk vaak wel in hoge mate. Dat is de keerzijde van zo’n breed computeralgoritme dat op basis van data-analyse tot stand komt: het wérkt wel heel goed. Het is immers gebaseerd op de feitelijke situatie, niet op hoe men op papier bedenkt dat dingen zouden kunnen zijn. Het dilemma van de algoritmes: wil men een mooi model dat niet past bij de werkelijkheid, of een passend model dat onverklaarbaar is?

Arnoud

Het gaat bij AI niet om algoritmes, het gaat om de data die je erin stopt

| AE 10622 | Innovatie | 15 reacties

Steeds vaker lees ik over aandacht voor AI en algoritmes bij de politiek. Een goeie ontwikkeling, zeker omdat AI software steeds vaker ingezet wordt om bestuur te ondersteunen. Bijvoorbeeld het selecteren van cold cases waar potentie in zit of herkennen van potentiële onrust zodat je de geweldprotesten voor kunt zijn. Steeds vaker lees ik daarbij ook dat men inzicht wil in de algoritmes, en dát voelt voor mij als de verkeerde insteek. It’s the data, stupid.

Om een of andere reden is het woord ‘algoritme’ recent populair geworden als korte omschrijving voor computeranalyses waarmee dit soort zaken worden geregeld. Van het customizen van een newsfeed tot het detecteren van criminaliteit in historische politiegegevens, het heet allemaal “algoritme”. Ergens klopt dat ook wel: een algoritme is “een eindige reeks instructies die vanuit een gegeven begintoestand naar een beoogd doel leidt” (Wikipedia), en al die systemen gebruiken een serie instructies om gegeven een bak met data te komen tot het beoogde doel van een voorspelling.

Alleen: die stappenplannen of reeksen instructies zijn op zichzelf helemaal niet zo spannend of bijzonder. Meestal gaat het om machine learning algoritmes, die op zoek gaan naar samenhang tussen factoren in een groot databestand om zo tot voorspellingen te komen. We zien dat terechte klachten over partnermishandeling samengaan met het wonen in een rijtjeshuis, deze klacht komt uit een rijtjeshuis dus grote kans dat ie terecht is, ga er maar heen. (De achterliggende factor is dan dat buren het horen en bellen, wat meer zekerheid geeft.)

Het algoritme dat dit doet, is echter volstrekt niet ontworpen of aangepast om specifiek die samenhang te zoeken. Gooi je er honderdduizend telecomcontracten in inclusief opzegdatum, dan kan hij met dezelfde instructies uitrekenen welke klanten waarschijnlijk gaan verlengen en welke niet. Het algoritme hoef je daarvoor niet aan te passen, meer dan aangeven wat de uitvoervariabele moet zijn is het in de praktijk eigenlijk niet.

Het gaat om de data. Wat erin gaat, bepaalt wat eruit komt. Daar hebben we het al vaker over gehad: foute data erin is natuurlijk foute data eruit, of dat nu vooringenomenheid is, kortzichtige selectiviteit of typefouten doet er dan verder niet toe. Maar als je als politiek wat wilt doen aan de betrouwbaarheid en vooral de eerlijkheid van AI, dan moet je het niet hebben over de algoritmes maar over de data. De data bepaalt voor 100% wat het systeem gaat zeggen. Je wilt dus inzicht in de data, en regels over de data.

Arnoud

Aansprakelijk voor je algoritmes

| AE 6254 | Intellectuele rechten, Ondernemingsvrijheid | 10 reacties

uploading.pngWie anderen informatie op zijn site laat plaatsen, is daarvoor niet aansprakelijk mits hij snel ingrijpt bij klachten. Echter, dat geldt alléén voor de user-generated content als zodanig. Wat je zelf daar vervolgens mee doet, al dan niet met een algoritme, komt alsnog voor je eigen rekening. Dat maak ik op uit een vonnis van eind vorig jaar over nieuwssite De Nieuwe Krant.

De site liet gebruikers nieuws plaatsen, en daarbij werden langs geautomatiseerde weg populaire artikelen geselecteerd en op de homepage geplaatst. Toen (uiteraard) Cozzmoss dat ontdekte, volgde gelijk een forse claim. DNK wilde dit pareren met een beroep op het beschermingsregime voor tussenpersonen (hosters): zij plaatste niet zelf de artikelen maar liet gebruikers dat doen, en ze reageerde adequaat op klachten. Dat er artikelen van Cozzmoss-achterban op de homepage kwamen, kwam uitsluitend omdat een algoritme dat volautomatisch bedacht. DNK had daarmee niet zelf redactionele invloed op deze selectie.

De rechtbank haalt uit het Europese eBay-arrest dat een tussenpersoon volstrekt neutraal moet zijn en geen controle mag hebben over wat waar terecht komt. Dat is op zich juist, maar de rechter concludeert dat het hebben van een selectie-algoritme controle oplevert. Dat bouw je zelf, dus bepaal je zelf wat er op je site komt.

Daarbij komt dat DNK de mogelijkheid had om het algoritme zodanig aan te passen dat inbreukmakende artikelen van het algoritme werden uitgesloten, maar dat zij van deze mogelijkheid geen gebruik heeft gemaakt omdat de software daarvoor te duur was. De rechtbank is van oordeel dat DNK aldus het algoritme heeft bedacht, heeft toegepast en in staat was om dit aan te passen zodat vastgesteld kan worden dat DNK controle had over de van andere afkomstige informatie.

Het is wel érg makkelijk om te zeggen dat je ‘controle’ hebt en het algoritme had kunnen aanpassen om zo inbreukmakende artikelen weg te laten. Ik zou niet weten hoe dat moet; het eerste algoritme dat me kan vertellen “stop, dit is van de Volkskrant” moet nog gemaakt worden volgens mij.

Bovendien, we hebben ook nog het Google Adwords-arrest: daar ging het om advertenties van users die vervolgens middels een Google-algoritme hier en daar getoond worden. Google was daar een passief doorgeefluik omdat ze niet zelf selecteerde wat waar moest komen, dat deden de adverteerders immers. Wat is het verschil tussen Adwords op de Googlezoekresultatenpagina en nieuwsberichten op een nieuwssite-homepage?

Het past in de lijn die we kennen uit het 123video-vonnis en eerder Galeries.nl, waarbij het beheer ook enigszins actief modereerde, hoewel dat daar handmatig gebeurde.

Ik moet zeggen dat ik in dubio zit. Dat handmatig modereren/kiezen aansprakelijkheid oplevert kan ik ergens begrijpen, hoewel me dat wel steekt omdat modereren juist maatschappelijk zeer wenselijk is om je site netjes en nuttig te houden. Maar als je zegt, inzet van een selectie-algoritme leidt óók tot aansprakelijkheid dan wordt de ruimte wel héél erg beperkt. Een spamfilter is ook een algoritme. En willekeurig de site van een van je bloggers uitzoeken en op je homepage vermelden is óók een algoritme. Een blogsite die dus zo zijn klanten in het zonnetje wil zetten, zou dan ook aansprakelijk zijn?

Arnoud<br/> PS: Gelukkig nieuwjaar!

In strijd met het goed fatsoen – maar wiens fatsoen?

| AE 4724 | Informatiemaatschappij | 25 reacties

Vandaag weer even een filosofisch iets, en dat mag want ik ben jarig. Ik las een intrigerend artikel in de NY Times: Impermium, a Silicon Valley company that helps Web sites deal with unwanted reader comments, has begun marketing technology that identifies “all kinds of harmful content — such as violence, racism, flagrant profanity, and… Lees verder

Open source code in patentaanvraag?

| AE 2331 | Intellectuele rechten | 9 reacties

Een ontwikkelaar van de open-source video-encoder x264 beschuldigt het bedrijf Tandberg ervan dat zij open-sourcecode heeft gestolen en die nu wil patenteren. Tandberg ontkent. Dat meldde Webwereld gisteren, en Tweakers al zondag. In patentaanvraag WO2010077148 blijkt een algoritme beschreven te worden dat wel héél sterk lijkt op een in 2006 bedacht algoritme voor de open… Lees verder