Vrouw staat vaker voor dichte deur bij gemeenteportaal dan man

Vrijwel standaard hebben alleen mannen bij gemeenten toegang tot belangrijke privégegevens over hun huishoudens, las ik bij de Stentor. Dat blijkt uit onderzoek van de krant. Steeds vaker schuiven gemeentes burgers naar online portalen voor persoonlijke informatie, belastingaanslagen (hond, huis), heffingen (riool, reiniging) en betalingsafspraken. Detail: slechts een persoon per huishouden (de belastingplichtige) krijgt toegang en dat de gemeente bepaalt wie dat is. Die keuze is onder meer gebaseerd op ‘veronderstelde betalingscapaciteit, doelmatigheid en doeltreffendheid van heffing en invordering’. Vandaar: de man.

Oké, dat was flauw. Afgezien van Staphorst (serieus) maakt geen gemeente de bewuste keuze om de man in een huishouden als enige de toegang tot de gezamenlijke belastinginformatie en dergelijke te geven. Er is gekozen voor toegang door één persoon, en daarbij wordt per gemeente een voorkeursvolgorde ingesteld. Voorheen stond “de man” daarbij als een van de criteria, maar dat is al even weg (behalve dus in Staphorst):

In de model-beleidsregels van de VNG voor het aanwijzen van een belastingplichtige is de gemene deler in de volgorde van kiezen nu zo: degene die het meeste eigendom heeft, een natuurlijk persoon boven een niet-natuurlijk persoon en de oudste ingeschrevene op het adres.
U mag nu even alle samenwonenden in uw omgeving langs deze lat leggen: wedden dat bij 80% of meer daarvan de man hier uit komt? In de meeste relaties is het huis of van de man of gezamenlijk en is de man ouder dan de vrouw. Een mooi voorbeeld van onbewuste bias zoals we die ook in de AI kennen: niemand bedóelt dat de man als enige die gegevens moet kunnen beheren, het komt alleen er zo uit (meestal) en omdat niemand heeft nagedacht dat dat onwenselijk is, is er dus geen procedure om dit eerlijker te maken:
Ook al ben je geboren en getogen in deze gemeente, en al 33 jaar getrouwd met dezelfde partner, woon je al die tijd samen in een huis dat gemeenschappelijk eigendom is en betaal je keurig op tijd de rekeningen, als jij de uitverkorene niet bent, is het systeem niet aardig tegen je en meldt het doodleuk: de ingelogde gebruiker is niet bekend.
Wat is dan wel de reden? Het lijkt een IT-keuze te zijn geweest, maar er zit iets juridisch achter. Beschikkingen zoals een aanslag onroerendezaakbelasting moeten op naam gesteld worden, je kunt niet aan “de familie Ten Brink” een aanslag richten want juridisch bestaat niet. Juridisch gezien hebben we op de Terwekselsestraat 1 de burgers Wim en Kornelia Ten Brink wonen, die een gedeelde huishouding hebben. Aan twee personen dezelfde aanslag uitreiken leidt tot gedoe zoals dubbele betalingen (of erger nog: burgers die gaan klagen dat ze twee keer moeten betalen). Daarom is zo veronderstel ik het IT-systeem ontworpen met een keuze welke van de twee burgers aangeslagen wordt.

Ja, ik zou ook denken dat enkel kíjken naar de status van een en ander geen probleem moet zijn. Je weet via de BRP of mensen gehuwd/GP zijn, en dan kun je ze (na inloggen met DigiD) toegang geven tot de informatie waartoe ze gerechtigd zijn. Je zou dan zelfs iets kunnen bouwen waarbij de eerste van het stel die de aanslag ‘pakt’ als enige ermee verder mag, of een algemene keuze inbouwen “wie van u gaat de financiën doen”. Maar dat is complex en vereist vele, vele koppelingen en dubbelchecks. Weinig dingen zo vervelend als dergelijke IT-projecten. Dus ik snap wel dat gemeenten kiezen voor de iets simpeler oplossing van zelf iemand aanwijzen.

Arnoud

Ombudsman over probleem etnisch profileren: draai bewijslast om

De ombudsman heeft onderzocht hoe de overheid moet omgaan met klachten over etnisch profileren, las ik bij deze onafhankelijke instantie. De meest opmerkelijke uitkomst, volgens RTL, is het idee van de bewijslast omdraaien bij etnisch profileren. De burger mag verwachten, aldus het rapport, dat de overheid kan uitleggen op basis waarvan hij geselecteerd is en in hoeverre etniciteit daarbij een rol heeft gespeeld. Hiermee wordt voorkomen dat de burger zelf moet aantonen dat een uitkomst op basis van verboden etnisch profileren is gerealiseerd, iets wat gezien de black box van overheidsbesluiten vaak onmogelijk is. Sommigen zouden zeggen dat de AVG dit al eist.

Etnisch profileren is het gebruik van criteria als ras, huidskleur, nationaliteit, taal, geloof of afkomst bij opsporing of rechtshandhaving terwijl dat niet objectief te rechtvaardigen is, zo valt te lezen in het rapport “Gekleurd beeld” dat eerder deze week verscheen. Daarbij doet het er niet toe of dit de bedoeling was (zoals bij de toeslagenaffaire) of dat het een onbewuste bijkomstigheid is van bijvoorbeeld data-gedreven opsporing – dat de data een bepaalde wijk aanwijst, omdat de postcodes sterk correleren met een etnische verdeling. Waar het om gaat, is dat we als samenleving niet op basis van deze criteria willen handelen, ook al lijken ze goede voorspellers van het te bestrijden gedrag.

De reden is natuurlijk simpel: deze criteria zijn geen voorspellers.

Desondanks blijft het idee hardnekkig, met name nu we steeds vaker met data-analyses werken die dan objectief zouden zijn. Want ja, als uit de data blijkt dat criminelen vaker uit regio X komen, dan is dat een feit toch? Dan mag je daar best op sturen, toch? Nou ja, nee: je handelt dan omgekeerd, uit die data volgt niet dat mensen met afkomst uit regio X significant vaker crimineel zijn. Om eens wat te noemen. En zelfs als de correlatie beide kanten op klopt, dan nog heb je waarschijnlijk een onderliggende factor over het hoofd gezien. Net zoals ze in Maine al jaren het aantal echtscheidingen terugdringen door margarineconsumptie te bestrijden. De cijfers zijn overtuigend, immers.

Daar komt natuurlijk bij dat de AVG het gebruik van deze bijzondere persoonsgegevens eenvoudig verbiedt, tenzij met heel goede reden die wettelijk is vastgelegd (en met waarborgen). Nou, dat kun je vergeten.

En dan komen we bij het punt van de bewijslast. Inderdaad moet je normaal als burger aantonen dat je onrecht is aangedaan, en dat is lastig bij zoiets groots als een onderzoek naar uitkeringsfraude (want een fraudepercentage van 0,2% van de uitkeringen is natuurlijk een hele goede reden voor strikte handhaving, dit in tegenstelling tot zeg btw fraude die qua Europese omvang gelijk is aan het totaal van de uitkeringen in Nederland). Maar de AVG draait de bewijslast zelf al om, het voor mij cruciale artikel 5 lid 2:

2. De verwerkingsverantwoordelijke is verantwoordelijk voor de naleving van lid 1 en kan deze aantonen (“verantwoordingsplicht”).
Dit betekent dus dat je te allen tijde in staat moet zijn om uit te leggen hoe je tot bijvoorbeeld je keuze voor nader onderzoek bent gekomen. En dan mag het niet blijven bij mooie woorden over zorgvuldig gekozen datasets of historisch gevalideerde gegevens maar moet er echt een stappenplan bij, hoe kwam de conclusie tot stand en welke gegevens zijn daar precies bij gebruikt. Een simpele is “een willekeur-generator zegt bij 10% van de mensen ‘Nader controleren’ en dat was u”. Maar wat ook kan, is zeggen “we hebben alle uitkomsten gecorreleerd met etnische afkomst en zagen geen uitschieters”, daarmee toon je ook aan dat daar niet naar wordt gekeken.

Wat de meeste mensen willen, is gehoord worden en excuses krijgen als het misgegaan bleek:

De wijkagent kan als wit persoon nooit weten hoe het is. Maar hij kan wel zeggen: wat vervelend en naar dat dit u is overkomen. Dat hij mij het gevoel geeft: ik hoor u en zie u. Ik kan het niet oplossen, maar wel uw verhaal serieus nemen.
Helaas blijkt nou juist dát het moeilijkste om voor elkaar te krijgen. Maar misschien als we beginnen met die data-analyse en omgekeerde bewijslast, dat we dan de goede richting op geduwd worden.

Arnoud

Kan dat, een algoritme met een moreel kompas? #legaltechtuesday

Wat doe je als slimme algoritmes verkeerde of gevaarlijke keuzes maken? Die vraag las ik in FD onlangs. Machine learning-onderzoeker Philip Thomas uit Massachusetts heeft een methode ontwikkeld om ‘ongewenst gedrag’ vooraf uit intelligente machines te filteren. Hij noemt dat een Seldonian algoritme, en omdat mijn eerste zelfgekochte boeken de Foundation-reeks van Asimov waren trok dat meteen mijn aandacht. Want ja, het is een probleem als algoritmes racistisch, seksistisch of biasbevestigend zijn. Maar is daar werkelijk een quick fix voor die ook nog eens een mooie science fiction term kan krijgen?

De kern van het onderzoek van Thomas is dat je bepaalde ongewenste uitkomsten vooraf algoritmisch vastlegt, zodat een machine learning algoritme een uitkomst kan toetsen aan dit geprogrammeerde moreel kompas:

Using an experimental dataset, they gave their algorithm mathematical instructions to avoid developing a predictive method that systematically overestimated or underestimated GPAs for one gender. With these instructions, the algorithm identified a better way to predict student GPAs with much less systematic gender bias than existing methods.

Het idee is dus dat als je vooraf kunt zeggen “je mag geen bias hebben op klasse X”, dat je dan eerlijker uitkomsten krijgt. Dit is de omgekeerde benadering van hoe men nu vaak probeert vooringenomenheid te voorkomen, namelijk door klasse X weg te laten uit de dataset. Zeg maar, je wilt voorkomen dat je vrouwen onderselecteert dus je laat het veld ‘geslacht’ weg. Maar dat werkt niet: ML algoritmes zullen andere factoren oppikken (zoals de hobby vrouwentennis of het voornaamwoord haar) en daaruit alsnog genderbias construeren. De Seldonian-benadering is dus dat je zegt “ik wil even veel vrouwen als mannen op gesprek” als HR-adviseur.

(De benadering gaat overigens verder dan alleen discriminatie; je kunt ook bijvoorbeeld zeggen dat de uitkomst niet mag zijn dat een diabetespatiënt een risicovol lage bloedsuikerspiegel kan krijgen. Maar dat terzijde.)

Je zou dus zeggen, opgelost nu dat bias-probleem: maak een kompasregel voor iedere verboden factor uit artikel 9 AVG en verplicht ieder ML systeem daarop te toetsen. Maar dat is ingewikkelder dan je denkt. Bias of vooringenomenheid is niet alleen dat je keihard vrouwen uitsluit of weglaat. Vaak is het veel subtieler; lees het boek Invisible Women als u de details wil weten maar het was voor mij bijvoorbeeld een eye-opener dat als je mannen en vrouwen gelijke toegang tot toiletten wilt geven je 50% meer dames-wc’s nodig hebt. Dáár op komen is niet zo simpel als “je mag geen bias hebben op geslacht”.

Arnoud

Hoe leg je uit dat je algoritme een sollicitant afwijst?

Via Twitter las ik:

In de US is er voor ‘hiring algoritmes’ een verplichte ‘explain’ regel. Het mag geen black box zijn en de keuzes moeten onderbouwd kunnen worden met de werkzaamheden. Lijkt me goede stap.

Waarop diverse reacties kwamen met de strekking dat de AVG deze regel al heeft. Een hiring algoritme bepaalt of iemand aangenomen wordt (of op zijn minst op sollicitatiegesprek), en zo’n besluit mag een algoritme niet zomaar nemen van de AVG.

Iets preciezer, in artikel 15 AVG staat dat je recht hebt op uitleg wanneer een geautomatiseerd besluit wordt genomen, althans op “nuttige informatie over de onderliggende logica” van het besluit. Het gehele algoritme hoeft niet te worden gepubliceerd, wat ook wat ver zou gaan gezien daar dan weer bedrijfsgeheimen in de knoop komen. Maar enkel “de computer zei nee” voldoet niet aan dit artikel.

Belangrijker is echter dat artikel 22 zegt dat zulke besluiten niet (zomaar) mogen. Als het noodzakelijk is bij je hiring-process dan is daar een uitzondering op mogelijk, maar dan moet je wel aan de bak want

3. In [deze gevallen] treft de verwerkingsverantwoordelijke passende maatregelen ter bescherming van de rechten en vrijheden en gerechtvaardigde belangen van de betrokkene, waaronder ten minste het recht op menselijke tussenkomst van de verwerkingsverantwoordelijke, het recht om zijn standpunt kenbaar te maken en het recht om het besluit aan te vechten.

Er moet dus ruimte zijn voor mensen om erachter te komen wat er is gebeurd en om een menselijke aanvulling te horen te krijgen. Ook moet je tegen het besluit in beroep kunnen op een of andere manier. En dat is wel een interessante, want bij sollicitaties is dat natuurlijk niet bepaald de praktijk. Kom je niet door de eerste ronde, dan krijg je een standaardbrief over niet in het team passen of andere, geschiktere kandidaten die beter aansluiten bij het profiel, en dat is het dan.

Ik twijfel of dit betekent dat de AVG een gemotiveerde afwijzing eist. Ik denk het wel, maar alleen wanneer je als HR-manager het besluit in overwegende mate af laat hangen van je algoritme. Is het een van de tien factoren waarop je handmatig beslist, dan kun je blijven werken zoals je deed.

Arnoud

Een black box algoritme mag geen juridische besluiten nemen

De zwarte doos roept steeds meer zorgen op. En dan bedoel ik niet de (overigens feloranje) kast in vliegtuigen waar informatie over crashes te vinden is, maar de zogeheten black box algorithms die zonder inzicht in hun werking een uitkomst geven. In het jargon van de ‘meme’ of internetgrap: “Computer says no”. Een zorgelijke ontwikkeling immers als je bedenkt dat steeds meer besluitvorming dankzij dergelijke algoritmes plaatsvindt. Een gebrekkige motivatie zou men bij menselijk genomen besluiten niet accepteren, dus waarom dan wel bij computers? Gelukkig heeft onze Hoge Raad nu een uitspraak gedaan die een harde lijn trekt tegen zulke besluitvorming.

De term ‘algoritme’ is in dit verband een tikje misleidend. Een algoritme is een eindige reeks instructies die vanuit een gegeven begintoestand naar een beoogd doel leidt. Meestal worden deze instructies door een computer uitgevoerd. In beginsel is er dus niets ondoorzichtigs of mysterieus aan een algoritme. “Ga na of betrokkene de leeftijd van 67 jaar heeft bereikt en zo ja ga over tot AOW-uitkering” is een volkomen transparant algoritme, dat iedere SVB-ambtenaar kan uitvoeren.

De meeste algoritmes zijn echter een stuk complexer, en drijven steeds vaker op zogeheten machine learning constructies in plaats van ouderwets ontworpen procedures. Klassieke algoritmes worden opgezet als stappenplannen van bovenaf, en verfijnd of uitgebreid als de regels ingewikkelder worden of uitzonderingen moeten worden ingevoerd. In bovengenoemd voorbeeld zou eigenlijk de deelregel horen “als betrokkene na 31 december 1954 en voor 1 oktober 1955 is geboren, neem dan de leeftijd van 67 jaar en 3 maanden”. Latere wetgeving kan nog meer regels doorvoeren, zoals wat te doen als iemand vele jaren in het buitenland heeft gewoond. Dit alles blijft relatief overzichtelijk.

Machine learning algoritmes werken van onderaf. Zij analyseren bestaande historische gegevens en destilleren daaruit patronen, die vervolgens worden omgezet in regels. Een dergelijk algoritme zou bijvoorbeeld uitkeringsfraude kunnen detecteren door in uitgavenpatronen van gerechtigden te zoeken naar voor fraude typische handelingen zoals op onregelmatige momenten grote bedragen ontvangen of vanaf de 15e van de maand niets meer te pinnen (omdat dan het zwart geld handje contantje wordt ontvangen).

Deze algoritmes zijn dus niet met vooraf opgestelde regels geformuleerd, maar kunnen uitsluitend vaststellen of een nieuwe casus voldoet aan het gedetecteerde patroon. Zo’n patroon is dan niet eenvoudig verklaarbaar, althans niet in een vorm waar mensen genoegen mee nemen. Effectief komt het algoritme niet verder dan “uw gedrag lijkt heel sterk op dat van fraudeurs, dus bent u volgens ons een fraudeur”. Nadere uitleg waaróm men dan lijkt, blijft vaak achterwege of komt neer op een opsomming van factoren waar moeilijk een voor juristen herkenbare regel van te maken is.

Een bijkomstigheid is dat dergelijke algoritmes vaak worden ontwikkeld door private bedrijven, die de effectiviteit van hun algoritme als belangrijkste verkoopargument aandragen. Het is dan ook essentieel voor hen dat zij geen inzicht hoeven te geven in de details van het algoritme, immers anders doet de concurrent morgen hetzelfde. Ook daardoor is sterk het beeld ontstaan dat algoritmes ondoorzichtige dozen zijn, er mag immers niet in worden gekeken.

Wanneer dergelijke algoritmes worden ingezet voor juridische besluitvorming, ontstaat een groot probleem. Een bestuursorgaan of rechtbank neemt dan een besluit, waarbij een deel van de motivatie gebaseerd is op een ondoorzichtige doos die ja of nee zegt. Een heldere motivatie is kern van een goede besluitvorming. Immers het is de motivatie waarop men een besluit in hoger beroep aanvecht.

Terecht dan ook dat de Hoge Raad bij arrest van 18 augustus een duidelijke streep in het zand trekt: wanneer een bestuursrechtelijk besluit geheel of ten dele het resultaat is van een geautomatiseerd proces, moet het bestuursorgaan zorgdragen voor de inzichtelijkheid en controleerbaarheid van die keuzes, aannames en gegevens. Anders kan een belanghebbende de juistheid van de bij dat geautomatiseerde proces gemaakte keuzes en van de daarbij gebruikte gegevens en aannames niet controleren en betwisten.

De zaak betrof de modelmatige waardebepaling in het kader van de uitvoering van de Wet WOZ. Deze waardebepaling vindt in eerste aanleg geautomatiseerd plaats. Hiertoe worden door (nagenoeg uitsluitend externe) softwareontwikkelaars taxatiemodellen ontworpen die per gemeente worden gevuld met de relevante objectgegevens en de beschikbare verkoopinformatie. Op grond van modelmatige analyse worden in het taxatiemodel onder meer staffels berekend die kunnen worden gebruikt voor het bepalen van de grondwaarde van het te taxeren object, met inachtneming van het type object en de ligging van de onroerende zaak. De staffels zijn opgenomen in de software en dus niet inzichtelijk voor de ambtenaren die ermee werken, laat staan voor de betrokkenen die de waardebepaling aangezegd krijgen.

De Hoge Raad ziet een dergelijke manier van werken in strijd met fundamentele beginselen van een goede besluitvorming. Een belanghebbende kan in geval van besluitvorming op basis van een computerprogramma dat vanuit zijn perspectief is te beschouwen als een zogenoemde “black box” immers niet controleren op basis waarvan tot een bepaald besluit wordt gekomen. Het is dan onmogelijk een fatsoenlijk bezwaar daartegen te formuleren. Het verbaast dan ook niet dat de HR de betrokkene gelijk geeft.

Terug naar de tekentafel, of eigenlijk rekentafel dus voor de gemeente. Echter, dat roept de vraag op hoe een nieuw besluit dan wél fatsoenlijk tot stand kan komen. Het is immers het gewone werkproces waarbij deze gegevens als black box worden gebruikt. In feite zou de gemeente nu de staffels opnieuw moeten construeren en als transparante tabellen moeten aanbieden, zodat ze als duidelijke onderbouwing en grondslag kunnen dienen. Dat zal buitengewoon veel werk kosten, en dat was nu precies waarom men die software van derden afnam.

Een ander probleem is dat dergelijke nieuwe staffels mogelijk minder van kwaliteit zullen zijn. De bestaande ontransparante staffels voldoen namelijk vaak wel in hoge mate. Dat is de keerzijde van zo’n breed computeralgoritme dat op basis van data-analyse tot stand komt: het wérkt wel heel goed. Het is immers gebaseerd op de feitelijke situatie, niet op hoe men op papier bedenkt dat dingen zouden kunnen zijn. Het dilemma van de algoritmes: wil men een mooi model dat niet past bij de werkelijkheid, of een passend model dat onverklaarbaar is?

Arnoud

Het gaat bij AI niet om algoritmes, het gaat om de data die je erin stopt

Steeds vaker lees ik over aandacht voor AI en algoritmes bij de politiek. Een goeie ontwikkeling, zeker omdat AI software steeds vaker ingezet wordt om bestuur te ondersteunen. Bijvoorbeeld het selecteren van cold cases waar potentie in zit of herkennen van potentiële onrust zodat je de geweldprotesten voor kunt zijn. Steeds vaker lees ik daarbij ook dat men inzicht wil in de algoritmes, en dát voelt voor mij als de verkeerde insteek. It’s the data, stupid.

Om een of andere reden is het woord ‘algoritme’ recent populair geworden als korte omschrijving voor computeranalyses waarmee dit soort zaken worden geregeld. Van het customizen van een newsfeed tot het detecteren van criminaliteit in historische politiegegevens, het heet allemaal “algoritme”. Ergens klopt dat ook wel: een algoritme is “een eindige reeks instructies die vanuit een gegeven begintoestand naar een beoogd doel leidt” (Wikipedia), en al die systemen gebruiken een serie instructies om gegeven een bak met data te komen tot het beoogde doel van een voorspelling.

Alleen: die stappenplannen of reeksen instructies zijn op zichzelf helemaal niet zo spannend of bijzonder. Meestal gaat het om machine learning algoritmes, die op zoek gaan naar samenhang tussen factoren in een groot databestand om zo tot voorspellingen te komen. We zien dat terechte klachten over partnermishandeling samengaan met het wonen in een rijtjeshuis, deze klacht komt uit een rijtjeshuis dus grote kans dat ie terecht is, ga er maar heen. (De achterliggende factor is dan dat buren het horen en bellen, wat meer zekerheid geeft.)

Het algoritme dat dit doet, is echter volstrekt niet ontworpen of aangepast om specifiek die samenhang te zoeken. Gooi je er honderdduizend telecomcontracten in inclusief opzegdatum, dan kan hij met dezelfde instructies uitrekenen welke klanten waarschijnlijk gaan verlengen en welke niet. Het algoritme hoef je daarvoor niet aan te passen, meer dan aangeven wat de uitvoervariabele moet zijn is het in de praktijk eigenlijk niet.

Het gaat om de data. Wat erin gaat, bepaalt wat eruit komt. Daar hebben we het al vaker over gehad: foute data erin is natuurlijk foute data eruit, of dat nu vooringenomenheid is, kortzichtige selectiviteit of typefouten doet er dan verder niet toe. Maar als je als politiek wat wilt doen aan de betrouwbaarheid en vooral de eerlijkheid van AI, dan moet je het niet hebben over de algoritmes maar over de data. De data bepaalt voor 100% wat het systeem gaat zeggen. Je wilt dus inzicht in de data, en regels over de data.

Arnoud

Aansprakelijk voor je algoritmes

uploading.pngWie anderen informatie op zijn site laat plaatsen, is daarvoor niet aansprakelijk mits hij snel ingrijpt bij klachten. Echter, dat geldt alléén voor de user-generated content als zodanig. Wat je zelf daar vervolgens mee doet, al dan niet met een algoritme, komt alsnog voor je eigen rekening. Dat maak ik op uit een vonnis van eind vorig jaar over nieuwssite De Nieuwe Krant.

De site liet gebruikers nieuws plaatsen, en daarbij werden langs geautomatiseerde weg populaire artikelen geselecteerd en op de homepage geplaatst. Toen (uiteraard) Cozzmoss dat ontdekte, volgde gelijk een forse claim. DNK wilde dit pareren met een beroep op het beschermingsregime voor tussenpersonen (hosters): zij plaatste niet zelf de artikelen maar liet gebruikers dat doen, en ze reageerde adequaat op klachten. Dat er artikelen van Cozzmoss-achterban op de homepage kwamen, kwam uitsluitend omdat een algoritme dat volautomatisch bedacht. DNK had daarmee niet zelf redactionele invloed op deze selectie.

De rechtbank haalt uit het Europese eBay-arrest dat een tussenpersoon volstrekt neutraal moet zijn en geen controle mag hebben over wat waar terecht komt. Dat is op zich juist, maar de rechter concludeert dat het hebben van een selectie-algoritme controle oplevert. Dat bouw je zelf, dus bepaal je zelf wat er op je site komt.

Daarbij komt dat DNK de mogelijkheid had om het algoritme zodanig aan te passen dat inbreukmakende artikelen van het algoritme werden uitgesloten, maar dat zij van deze mogelijkheid geen gebruik heeft gemaakt omdat de software daarvoor te duur was. De rechtbank is van oordeel dat DNK aldus het algoritme heeft bedacht, heeft toegepast en in staat was om dit aan te passen zodat vastgesteld kan worden dat DNK controle had over de van andere afkomstige informatie.

Het is wel érg makkelijk om te zeggen dat je ‘controle’ hebt en het algoritme had kunnen aanpassen om zo inbreukmakende artikelen weg te laten. Ik zou niet weten hoe dat moet; het eerste algoritme dat me kan vertellen “stop, dit is van de Volkskrant” moet nog gemaakt worden volgens mij.

Bovendien, we hebben ook nog het Google Adwords-arrest: daar ging het om advertenties van users die vervolgens middels een Google-algoritme hier en daar getoond worden. Google was daar een passief doorgeefluik omdat ze niet zelf selecteerde wat waar moest komen, dat deden de adverteerders immers. Wat is het verschil tussen Adwords op de Googlezoekresultatenpagina en nieuwsberichten op een nieuwssite-homepage?

Het past in de lijn die we kennen uit het 123video-vonnis en eerder Galeries.nl, waarbij het beheer ook enigszins actief modereerde, hoewel dat daar handmatig gebeurde.

Ik moet zeggen dat ik in dubio zit. Dat handmatig modereren/kiezen aansprakelijkheid oplevert kan ik ergens begrijpen, hoewel me dat wel steekt omdat modereren juist maatschappelijk zeer wenselijk is om je site netjes en nuttig te houden. Maar als je zegt, inzet van een selectie-algoritme leidt óók tot aansprakelijkheid dan wordt de ruimte wel héél erg beperkt. Een spamfilter is ook een algoritme. En willekeurig de site van een van je bloggers uitzoeken en op je homepage vermelden is óók een algoritme. Een blogsite die dus zo zijn klanten in het zonnetje wil zetten, zou dan ook aansprakelijk zijn?

Arnoud<br/> PS: Gelukkig nieuwjaar!

In strijd met het goed fatsoen – maar wiens fatsoen?

cartoon-new-yorker-mick-stevensVandaag weer even een filosofisch iets, en dat mag want ik ben jarig. Ik las een intrigerend artikel in de NY Times:

Impermium, a Silicon Valley company that helps Web sites deal with unwanted reader comments, has begun marketing technology that identifies “all kinds of harmful content — such as violence, racism, flagrant profanity, and hate speech — and allows site owners to act on it in real-time, before it reaches readers.” Impermium will police the readers — but who will police Impermium?

Steeds meer handhaving van regels en normen gebeurt automatisch. En wanneer je dat wilt doen, moet je harde regels invoeren anders kan de computer er niks mee. Voor IT-ers is het dus doodnormaal dat je normen vertaalt naar criteria en die vervolgens inprogrammeert en handhaaft.

Maar juristerij werkt niet zo. Neem bijvoorbeeld het citaatrecht: je mag “niet meer dan nodig” overnemen. Hoe veel tekens dat is, hangt dus af van wat je overneemt en waarom. Dat is niet te programmeren. Vragen “hoe veel tekens mag je overnemen” is dus een juridisch niet te beantwoorden vraag. Toch komt ‘ie bij mij bijna wekelijks langs, en mensen willen dan graag gewoon horen dat het 200×150 is mits met bronvermelding. Want dan kunnen ze hun botje en plaatjesverkleinscript afronden en de site live zetten.

Een ander voorbeeld dat men noemt is de autocomplete/autosuggest functie van Google. Woorden die rieken naar seks of onwelvoeglijkheid of ongepastheid naar Amerikaanse normen en waarden, worden niet aangevuld. Wie “amateu” intypt, krijgt er geen r bij want dat kan wel eens tot porno leiden. En nou ja dat is vast meestal ook wel zo, maar hoe wéét je dat als algoritme?

Een vergelijkbaar probleem doet zich voor bij de breinbotjes – ik bedoel de auteursrechthandhavingsagents die het internet afschuimen en sites een notice & takedown sturen op basis van automatisch getrokken conclusies. Dat gaat niet per se goed, zie dit artikel waarin een volledig legale livestream van de Hugo awards offline werd gehaald door zo’n automatische actie.

Gaat dat ooit werken, met algoritmes normen handhaven? Ik zie het niet gebeuren.

En zelfs wanneer je het aan mensen overlaat, loopt het niet per se lekker. Neem het plaatje rechtsboven (tekening van Mick Stevens). Gewoon een cartoon zou je zeggen, maar deze cartoon mocht niet op Facebook vanwege aanstootgevend. Hoezo? Nou ja, het afbeelden van ontblote vrouwenborsten is tegen de normen op Facebook. En ja die zwarte stipjes dat zijn blote borsten. (Mannenborsten mogen dan weer wél bloot, kennelijk.)

Hier wringt natuurlijk ook een stuk Amerikaans versus Europees fatsoen. Waar geweld geen enkel probleem is maar naakt des te meer. Bij ons lijkt dat eerder andersom te zijn. Dus wiens normen gebruik je dan als wereldwijde dienstverlener? De grootste gemene deler van alle normen ter wereld is nogal beperkt zeg maar.

Arnoud

Open source code in patentaanvraag?

x264.pngEen ontwikkelaar van de open-source video-encoder x264 beschuldigt het bedrijf Tandberg ervan dat zij open-sourcecode heeft gestolen en die nu wil patenteren. Tandberg ontkent. Dat meldde Webwereld gisteren, en Tweakers al zondag. In patentaanvraag WO2010077148 blijkt een algoritme beschreven te worden dat wel héél sterk lijkt op een in 2006 bedacht algoritme voor de open source video encoder x.264.

De overeenkomsten zijn inderdaad zeer opmerkelijk. De indieningsdatum is 2 maanden na de publicatie van de broncode uit de encoder. Er ontbreekt een niet onbelangrijk onderdeeltje in de patentaanvraag – en precies dat onderdeeltje was pas een tijdje later aan de encoder toegevoegd. En volgens de ontwikkelaars was bekend dat Tandberg-mensen meelezen bij hun project. Bij Slashdot zien ze dan ook meteen een complot om heel open source te patenteren. /aluhoedje

Tandberg ontkent alle beschuldigingen en wijst erop dat hun aanvraag toch echt anders is dan de encoder, en dat ze zeker niet meelezen of code overtypen. (Er staat ook geen broncode in de patentaanvraag.) En de ontwikkelaars reageren daar weer op dat dat best zou kunnen; het algoritme uit de patentaanvraag is volgens hen zó triviaal dat je er toch geen patent op moet kunnen krijgen.

Hoe nu verder? Het literatuuronderzoek van WIPO noemt deze prior art niet, maar na al deze heisa een mogelijke octrooiverlenende instantie mogelijk wel. Of Tandberg besluit zelf de aanvraag in te trekken, dat kan ook altijd.

Webwereld meldt nog deze aperte onzin:

De x264 projectgroep kan overigens nog wel bezwaar indienen tegen het patent bij de World Intellectual Property Organization. Die organisatie kan de patentaanvraag ongeldig verklaren als blijkt dat het algoritme van Tandberg inderdaad te veel overeenkomt met het open-source algoritme.

Die mogelijkheid bestaat juridisch eenvoudigweg niet. Het WIPO publiceert internationale octrooiaanvragen en publiceert een literatuuronderzoek, meer niet. Wie echt een octrooi wil, moet daarna naar de octrooiraden van de landen waar hij dat octrooi wil. En die kunnen eventueel de bezwaren van de x.264 groep in behandeling nemen.

Arnoud