Het gaat bij AI niet om algoritmes, het gaat om de data die je erin stopt

| AE 10622 | Innovatie | 15 reacties

Steeds vaker lees ik over aandacht voor AI en algoritmes bij de politiek. Een goeie ontwikkeling, zeker omdat AI software steeds vaker ingezet wordt om bestuur te ondersteunen. Bijvoorbeeld het selecteren van cold cases waar potentie in zit of herkennen van potentiële onrust zodat je de geweldprotesten voor kunt zijn. Steeds vaker lees ik daarbij ook dat men inzicht wil in de algoritmes, en dát voelt voor mij als de verkeerde insteek. It’s the data, stupid.

Om een of andere reden is het woord ‘algoritme’ recent populair geworden als korte omschrijving voor computeranalyses waarmee dit soort zaken worden geregeld. Van het customizen van een newsfeed tot het detecteren van criminaliteit in historische politiegegevens, het heet allemaal “algoritme”. Ergens klopt dat ook wel: een algoritme is “een eindige reeks instructies die vanuit een gegeven begintoestand naar een beoogd doel leidt” (Wikipedia), en al die systemen gebruiken een serie instructies om gegeven een bak met data te komen tot het beoogde doel van een voorspelling.

Alleen: die stappenplannen of reeksen instructies zijn op zichzelf helemaal niet zo spannend of bijzonder. Meestal gaat het om machine learning algoritmes, die op zoek gaan naar samenhang tussen factoren in een groot databestand om zo tot voorspellingen te komen. We zien dat terechte klachten over partnermishandeling samengaan met het wonen in een rijtjeshuis, deze klacht komt uit een rijtjeshuis dus grote kans dat ie terecht is, ga er maar heen. (De achterliggende factor is dan dat buren het horen en bellen, wat meer zekerheid geeft.)

Het algoritme dat dit doet, is echter volstrekt niet ontworpen of aangepast om specifiek die samenhang te zoeken. Gooi je er honderdduizend telecomcontracten in inclusief opzegdatum, dan kan hij met dezelfde instructies uitrekenen welke klanten waarschijnlijk gaan verlengen en welke niet. Het algoritme hoef je daarvoor niet aan te passen, meer dan aangeven wat de uitvoervariabele moet zijn is het in de praktijk eigenlijk niet.

Het gaat om de data. Wat erin gaat, bepaalt wat eruit komt. Daar hebben we het al vaker over gehad: foute data erin is natuurlijk foute data eruit, of dat nu vooringenomenheid is, kortzichtige selectiviteit of typefouten doet er dan verder niet toe. Maar als je als politiek wat wilt doen aan de betrouwbaarheid en vooral de eerlijkheid van AI, dan moet je het niet hebben over de algoritmes maar over de data. De data bepaalt voor 100% wat het systeem gaat zeggen. Je wilt dus inzicht in de data, en regels over de data.

Arnoud

Aansprakelijk voor je algoritmes

| AE 6254 | Intellectuele rechten, Ondernemingsvrijheid | 10 reacties

uploading.pngWie anderen informatie op zijn site laat plaatsen, is daarvoor niet aansprakelijk mits hij snel ingrijpt bij klachten. Echter, dat geldt alléén voor de user-generated content als zodanig. Wat je zelf daar vervolgens mee doet, al dan niet met een algoritme, komt alsnog voor je eigen rekening. Dat maak ik op uit een vonnis van eind vorig jaar over nieuwssite De Nieuwe Krant.

De site liet gebruikers nieuws plaatsen, en daarbij werden langs geautomatiseerde weg populaire artikelen geselecteerd en op de homepage geplaatst. Toen (uiteraard) Cozzmoss dat ontdekte, volgde gelijk een forse claim. DNK wilde dit pareren met een beroep op het beschermingsregime voor tussenpersonen (hosters): zij plaatste niet zelf de artikelen maar liet gebruikers dat doen, en ze reageerde adequaat op klachten. Dat er artikelen van Cozzmoss-achterban op de homepage kwamen, kwam uitsluitend omdat een algoritme dat volautomatisch bedacht. DNK had daarmee niet zelf redactionele invloed op deze selectie.

De rechtbank haalt uit het Europese eBay-arrest dat een tussenpersoon volstrekt neutraal moet zijn en geen controle mag hebben over wat waar terecht komt. Dat is op zich juist, maar de rechter concludeert dat het hebben van een selectie-algoritme controle oplevert. Dat bouw je zelf, dus bepaal je zelf wat er op je site komt.

Daarbij komt dat DNK de mogelijkheid had om het algoritme zodanig aan te passen dat inbreukmakende artikelen van het algoritme werden uitgesloten, maar dat zij van deze mogelijkheid geen gebruik heeft gemaakt omdat de software daarvoor te duur was. De rechtbank is van oordeel dat DNK aldus het algoritme heeft bedacht, heeft toegepast en in staat was om dit aan te passen zodat vastgesteld kan worden dat DNK controle had over de van andere afkomstige informatie.

Het is wel érg makkelijk om te zeggen dat je ‘controle’ hebt en het algoritme had kunnen aanpassen om zo inbreukmakende artikelen weg te laten. Ik zou niet weten hoe dat moet; het eerste algoritme dat me kan vertellen “stop, dit is van de Volkskrant” moet nog gemaakt worden volgens mij.

Bovendien, we hebben ook nog het Google Adwords-arrest: daar ging het om advertenties van users die vervolgens middels een Google-algoritme hier en daar getoond worden. Google was daar een passief doorgeefluik omdat ze niet zelf selecteerde wat waar moest komen, dat deden de adverteerders immers. Wat is het verschil tussen Adwords op de Googlezoekresultatenpagina en nieuwsberichten op een nieuwssite-homepage?

Het past in de lijn die we kennen uit het 123video-vonnis en eerder Galeries.nl, waarbij het beheer ook enigszins actief modereerde, hoewel dat daar handmatig gebeurde.

Ik moet zeggen dat ik in dubio zit. Dat handmatig modereren/kiezen aansprakelijkheid oplevert kan ik ergens begrijpen, hoewel me dat wel steekt omdat modereren juist maatschappelijk zeer wenselijk is om je site netjes en nuttig te houden. Maar als je zegt, inzet van een selectie-algoritme leidt óók tot aansprakelijkheid dan wordt de ruimte wel héél erg beperkt. Een spamfilter is ook een algoritme. En willekeurig de site van een van je bloggers uitzoeken en op je homepage vermelden is óók een algoritme. Een blogsite die dus zo zijn klanten in het zonnetje wil zetten, zou dan ook aansprakelijk zijn?

Arnoud<br/> PS: Gelukkig nieuwjaar!

In strijd met het goed fatsoen – maar wiens fatsoen?

| AE 4724 | Informatiemaatschappij | 25 reacties

cartoon-new-yorker-mick-stevensVandaag weer even een filosofisch iets, en dat mag want ik ben jarig. Ik las een intrigerend artikel in de NY Times:

Impermium, a Silicon Valley company that helps Web sites deal with unwanted reader comments, has begun marketing technology that identifies “all kinds of harmful content — such as violence, racism, flagrant profanity, and hate speech — and allows site owners to act on it in real-time, before it reaches readers.” Impermium will police the readers — but who will police Impermium?

Steeds meer handhaving van regels en normen gebeurt automatisch. En wanneer je dat wilt doen, moet je harde regels invoeren anders kan de computer er niks mee. Voor IT-ers is het dus doodnormaal dat je normen vertaalt naar criteria en die vervolgens inprogrammeert en handhaaft.

Maar juristerij werkt niet zo. Neem bijvoorbeeld het citaatrecht: je mag “niet meer dan nodig” overnemen. Hoe veel tekens dat is, hangt dus af van wat je overneemt en waarom. Dat is niet te programmeren. Vragen “hoe veel tekens mag je overnemen” is dus een juridisch niet te beantwoorden vraag. Toch komt ‘ie bij mij bijna wekelijks langs, en mensen willen dan graag gewoon horen dat het 200×150 is mits met bronvermelding. Want dan kunnen ze hun botje en plaatjesverkleinscript afronden en de site live zetten.

Een ander voorbeeld dat men noemt is de autocomplete/autosuggest functie van Google. Woorden die rieken naar seks of onwelvoeglijkheid of ongepastheid naar Amerikaanse normen en waarden, worden niet aangevuld. Wie “amateu” intypt, krijgt er geen r bij want dat kan wel eens tot porno leiden. En nou ja dat is vast meestal ook wel zo, maar hoe wéét je dat als algoritme?

Een vergelijkbaar probleem doet zich voor bij de breinbotjes – ik bedoel de auteursrechthandhavingsagents die het internet afschuimen en sites een notice & takedown sturen op basis van automatisch getrokken conclusies. Dat gaat niet per se goed, zie dit artikel waarin een volledig legale livestream van de Hugo awards offline werd gehaald door zo’n automatische actie.

Gaat dat ooit werken, met algoritmes normen handhaven? Ik zie het niet gebeuren.

En zelfs wanneer je het aan mensen overlaat, loopt het niet per se lekker. Neem het plaatje rechtsboven (tekening van Mick Stevens). Gewoon een cartoon zou je zeggen, maar deze cartoon mocht niet op Facebook vanwege aanstootgevend. Hoezo? Nou ja, het afbeelden van ontblote vrouwenborsten is tegen de normen op Facebook. En ja die zwarte stipjes dat zijn blote borsten. (Mannenborsten mogen dan weer wél bloot, kennelijk.)

Hier wringt natuurlijk ook een stuk Amerikaans versus Europees fatsoen. Waar geweld geen enkel probleem is maar naakt des te meer. Bij ons lijkt dat eerder andersom te zijn. Dus wiens normen gebruik je dan als wereldwijde dienstverlener? De grootste gemene deler van alle normen ter wereld is nogal beperkt zeg maar.

Arnoud

Open source code in patentaanvraag?

| AE 2331 | Intellectuele rechten | 9 reacties

Een ontwikkelaar van de open-source video-encoder x264 beschuldigt het bedrijf Tandberg ervan dat zij open-sourcecode heeft gestolen en die nu wil patenteren. Tandberg ontkent. Dat meldde Webwereld gisteren, en Tweakers al zondag. In patentaanvraag WO2010077148 blijkt een algoritme beschreven te worden dat wel héél sterk lijkt op een in 2006 bedacht algoritme voor de open… Lees verder