VN-commissaris roept op tot stopzetting van biometrische herkenning via AI

| AE 12915 | Innovatie | 30 reacties

De commissaris voor mensenrechten bij de VN pleit voor een stopzetting op het gebruik van biometrische herkenning in de publieke ruimte, las ik bij Tweakers. Mevrouw Bachelet doet deze uitspraak in een rapport van de Verenigde Naties waarin de effecten van artificiële intelligentie op mensenrechten wordt besproken. Overheden zouden eerst moeten kunnen aantonen of er voldaan wordt aan de privacywetgeving en of er niet gediscrimineerd kan worden. En dat geeft weer gelijk discussie over de vraag of een AI wel kan discrimineren.

Het rapport stipt nog meer dingen aan, zoals dat AI vaak door private partijen wordt geleverd en dan totaal niet transparant is. Of dat je niet weet waar de data vandaan komt of wat men er nog meer mee doet. Ik vind dat soort dingen minstens zo ingewikkeld en juridisch vervelend.

Maar goed, discriminatie. Gewoon een neutraal woord in de wetenschap hoor, zo lees ik dan in de comments. En terecht: het betekent gewoon “onderscheid maken” en in de statistiek gebruik je dat voor iedere situatie waarin je data in groep A of B gaat onderverdelen. Maar juristen en ethici bedoelen er wat anders mee, namelijk het onderscheid maken op basis van verboden kenmerken zoals etnische afkomst, seksuele gerichtheid of politieke voorkeur. Dat willen we niet, en daar is een hele goede reden voor: deze kenmerken zijn fundamentele waarden van mensen, en ook niet te wijzigen zoals een kledingkeuze of zelfs woonplaats. Daar blijf je dus af.

Bovendien is er nooit enig oorzakelijk verband aangetoond tussen die kenmerken en welk gedrag dan ook. Iedere uitspraak van het soort “mensen met etnisch kenmerk X willen/hebben/kunnen/haten” is dus automatisch fout, dat is gewoon geen kenmerk waar je uitspraken op kunt baseren. Oké, heel misschien medische kenmerken (kroeshaar is lastiger te scheren, Aziaten verdragen koemelk niet) maar dat zijn echt de uitzonderingen. Het soort situatie waar we het bij AI vaak over hebben, past daar niet bij.

Dat wringt, omdat we vaak AI systemen correlaties zien aanwijzen: de criminaliteit is hoger bij groepen met etnisch kenmerk X, sollicitanten met huidskleur A zijn minder geschikt, seksuele gerichtheid X gaat niet samen met lesgeven op school. Voor een AI is dat inderdaad een neutrale constatering, als dat zo in de dataset zit en de functie komt daarbij op een goed werkend onderscheid (de test-dataset wordt correct als ja of nee gesorteerd) dan is het in orde.

Zo’n conclusie is voor de maatschappij echter niet in orde. In eerste instantie niet omdat de dataset waarschijnlijk niet compleet is (dit is namelijk bij vrijwel iedere AI applicatie een ware uitspraak). Maar zelfs als je wél alle relevante data hebt, blijft er een probleem.

Natuurlijk kan een AI ook een bestaande bias blootleggen. Huidskleur blijkt bij dit bedrijf een perfecte voorspeller van geschiktheid, omdat de HR-medewerker die de sollicitanten screende, zelf die bias had. Dan heb je dus een bias geformaliseerd, maar dat kun je het systeem niet verwijten toch? Die geeft neutraal aan hoe de werkelijkheid is, hoe de maatschappij er nu uit ziet.

Maar dat is niet waar. Een mens is allereerst niet zo hard als een AI. Die zal niet snel iemand in zijn of haar gezicht zeggen, je huidskleur past niet bij dit bedrijf. Die verzint excuses, blaast een smetje op het cv op of legt het gewoon op de stapel “tweede keus” wetende dat er al tien mensen op gesprek komen. Dat merk je niet. Een AI zegt gewoon letterlijk waar het op staat, zonder schroom of vergoeilijking of excuses. En dat valt veel meer op, komt veel meer binnen.

Bovendien, en dat vind ik problematischer, heeft een AI veel meer een aura van objectiviteit, betrouwbaarheid, echtheid. De cijfers zeggen het, deze huidskleur kan gewoon niet bij dit bedrijf. Helaas, objectief berekend met 88% betrouwbaarheid en achttien cijfers achter de komma. Maar in feite hebben we hetzelfde als die HR-medewerker die het met mooie smoesjes wist te verhullen.

Arnoud

Mag je een AI telefonende politici laten signaleren en daarover tweeten?

| AE 12772 | Privacy | 4 reacties

De Vlaamse kunstenaar Dries Depoorter heeft software gemaakt die via machinelearning en gezichtsherkenning ziet wanneer een politicus op zijn of haar smartphone zit tijdens een overheidsvergadering. Dat meldde Tweakers afgelopen maandag. En de grap: de software maakt daarna een Twitter- en Instagram-bericht aan. Onder de naam The Flemish Scrollers kunnen geïnteresseerden dan constateren dat de betreffende politicus dan afgeleid is, waar je dan zelf wat van mag vinden.

Het beeld dat ontstaat is natuurlijk dat politici zich aan hun werk onttrekken of niet geïnteresseerd zijn in wat collega’s te melden hebben. Dat zal zeker wel eens het geval zijn (je zou het misschien zelfs nog aan de politicus zhaar Twitter of Instagram-activiteit kunnen koppelen, bedenk ik me) maar men zal zeker ook wel op die manier ruggespraak houden met partijgenoten. Dat is iets praktischer en juist vriendelijker dan opstaan en buiten de zaal samen praten, en dan weer naar binnen gaan.

Onduidelijk is nog wat de politici er van vinden, ik zag in de comments al dat het ironisch genoemd werd omdat politici de burger juist met alles en nog wat in de gaten houden. Maar dat zou het alleen maar zijn als de dames en heren politici hier bezwaar tegen hebben, wat voorals nog niet het geval lijkt.

Ook wat betreft de AVG zie ik geen probleem. Dit is evident een artistieke verwerking, die een duidelijk maatschappelijk punt maakt en zich baseert op openbare beelden. Daarmee is de belangenafweging van artikel 6 sub f AVG snel gemaakt, het gerechtvaardigd belang van Depoorter om dit te tonen weegt zwaarder dan privacy- of andere belangen van de politici in kwestie. (Voor mij weegt dan zeker mee dat Depoorter zich niet uitlaat over wat men doet op de telefoon: men kan immers ruggespraak houden, dossiers nazoeken of anderszins legitiem de smartphone gebruiken.)

Hoe moeilijk zou het zijn dit te porten naar de Nederlandse Tweede Kamer?

Arnoud

GitHub brengt AI-programmer uit die helpt bij het schrijven van code, mag dat van de GPL?

| AE 12764 | Intellectuele rechten, Ondernemingsvrijheid | 10 reacties

GitHub heeft een technische preview uitgebracht van Copilot, een AI-gedreven pair programmer die ontwikkelaars helpt bij het schrijven van code. Dat las ik bij Tweakers. Copilot stelt contextgebonden code en functies voor, en helpt acties bij het oplossen van problemen door te leren van de code die iemand schrijft. De AI is getraind op een grote dataset van publieke broncode, en dat zal vast grotendeels open source zijn onder de GPL want dat is nu eenmaal de bulk van de “publieke” software. Maar de GPL vindt daar iets van, van hergebruik.

Copilot kan automatisch opmerkingen omzetten in code, repetitieve code aanvullen en een functie testen tijdens het schrijven. Het systeem leert en verbetert zichzelf. Het klinkt als een hele goede ontwikkeling, maar als je even doordenkt dan besef je dat dit alleen kan door een héle berg broncode door te akkeren en tot een machine learning model om te zetten. Dat zegt men zelf ook:

Trained on billions of lines of public code, GitHub Copilot puts the knowledge you need at your fingertips, saving you time and helping you stay focused.

Er is die merkwaardige gedachte dat als iets “publiek” is, dat je er dan wat mee mag. Misschien moeten we naast “data is niets” nog een juridisch mantra invoeren: “dat het publiek is, is geen argument”. Want het gaat hier om software, en die is zonder twijfel auteursrechtelijk beschermd. En wanneer die “publiek” online staat, dan weet ik vrij zeker dat het om open source gaat. En dan krijg je dus te maken met de licentie. Of niet?

Interessant genoeg zegt men in de FAQ dan:

GitHub Copilot is a code synthesizer, not a search engine: the vast majority of the code that it suggests is uniquely generated and has never been seen before. We found that about 0.1% of the time, the suggestion may contain some snippets that are verbatim from the training set. Here is an in-depth study on the model’s behavior.
Er is natuurlijk een ontzettend groot verschil tussen een lap code copypasten en heel goed kijken naar “billions of lines of code” om jezelf te trainen. Wie zei dat ook weer, kopiëren uit één bron is diefstal en kopiëren uit honderd is inspiratie? Dat lijkt me hier ook van toepassing.

Het komt neer op de algemene vraag of het maken van een machine learning model een kopie is van alle brondocumenten of -data. Als dat zo is, dan krijg je met de licentie te maken en daar zou dan in dit geval de GPL op van toepassing kunnen zijn. Dan zou alle code die Copilot suggereert, onder de GPL vallen, want dan is al die code afgeleid van de GPL code die erin ging. En dan is dus ook elk door Copilot mede geschreven project GPL.

Bewijstechnisch valt daar nog wel wat op aan te merken: de GPL auteur zal moeten bewijzen dat deze suggestie gedaan is op basis van haar code, want zonder kopie geen inbreuk. En dat zal niet meevallen. Maar dat terzijde.

Is een machine learning model inbreuk op de rechten van de brondocumenten? In de VS waarschijnlijk niet. In 2019 oordeelde de Second Ciruit (de hogerberoepsrechter voor New York, Connecticut en Vermont) dat het verwerken van stukjes uit boeken om een boekenzoekalgoritme te trainen géén inbreuk op auteursrechten is. De dataset die daarmee ontstaat, is dus niet onderworpen aan toestemming (of licentie) van de boekenrechthebbenden.

In Europa zijn er geen vergelijkbare zaken. We hebben wel de Infopaq-zaak, waarin werd bepaald dat het overnemen en verspreiden van 11 woorden (een snippet in zoekresultaten) onderworpen kan zijn aan auteursrechten, maar het ging daar om het publiceren van zoekresultaten in een nieuwsbrief. Dat is toch echt wat anders dan een statistisch model maken waarin staat dat codestukje X vaak samengaat met Y, of dat constructie A goed aansluit bij aanhef B. Ik volg dan ook de conclusie van professors Gotzen en Janssens:

Vooral de overwegingen in de arresten Infopaq I, in verband met bepaalde handelingen van ‘data capturing’ die onder het toepassingsgebied van de uitzondering kunnen vallen, verdienen aandacht. Maar de vijf voorwaarden die de uitzondering … oplegt, zijn cumulatief en, mede in het licht van de regel van de strikte interpretatie, zijn we niet geneigd om te concluderen dat alle gebruikshandelingen voor het trainen van AI-systemen die gebruik maken van beschermd materiaal, door deze uitzondering zullen worden afgedekt.
Die vijf voorwaarden zijn als volgt:
  1. deze handeling is tijdelijk;
  2. deze handeling is van voorbijgaande of incidentele aard;
  3. deze handeling vormt een integraal en essentieel onderdeel van een technisch procedé;
  4. dit procedé wordt toegepast met als enig doel de doorgifte in een netwerk tussen derden door een tussenpersoon of een rechtmatig gebruik van een werk of beschermd materiaal mogelijk te maken, en
  5. deze handeling bezit geen zelfstandige economische waarde.
Een machine learning dataset maken is een tijdelijke handeling, die essentieel en integraal nodig is om het neuraal netwerk mee te maken. Dat trainen is niet op zichzelf economisch waardevol (de exploitatie van het resultaat natuurlijk wel, maar dat bedoelt men hier niet). Punt 4 zou je dan naar analogie moeten interpreteren, wat het Hof van Justitie doet in punt 64 van het arrest:
wanneer de levensduur ervan is beperkt tot hetgeen noodzakelijk is voor de goede werking van het betrokken technische procedé, waarbij dit procedé geautomatiseerd moet zijn zodat deze handeling automatisch, zonder menselijke interventie, wordt gewist zodra de functie ervan om dit procedé mogelijk te maken is vervuld.
Oftewel in gewone taal “ik extraheer even de essentiële kenmerken om een statistisch model te maken, daarna gooi ik het weer weg” en dat zou dan mogen.

Arnoud

Nederlandse politie geeft details over gebruik van Boston Dynamics-robot Spot

| AE 12586 | Informatiemaatschappij | 3 reacties

De Dienst Speciale Operaties van de Nederlandse politie heeft een Spot-robot van Boston Dynamics in gebruik genomen en die onlangs voor het eerst ingezet. Dat meldde Tweakers onlangs. Spot is een robothond met als unieke eigenschap zijn natuurlijke manier van bewegen en evenwicht bewaren, waarbij je dan moet zeggen dat het “AI aangedreven is”. De variant die… Lees verder

Moet ik nog zeggen dat die ondergoedfotoapp van Albert Heijn van de AVG niet mag?

| AE 11634 | Ondernemingsvrijheid, Privacy | 28 reacties

Winkelpersoneel van Albert Heijn is binnenkort in nieuwe bedrijfskleding te zien. De maat zou worden bepaald door foto’s in ondergoed. Dat las ik bij NRC (dank, vele tipgevers, ook voor dit gedicht). De foto’s worden – als ik het goed begrijp – door een AI geanalyseerd om zo de best passende maat te weten te… Lees verder

Mag een AI-politiecamera je beboeten voor een plak roggebrood in de hand bij het rijden?

| AE 11528 | Regulering | 16 reacties

Een lezer vroeg me: Onlangs werd bekend dat de politie ‘slimme camera’s’ gaat inzetten tegen automobilisten die met hun smartphone in de hand aan het appen of bellen zijn. Maar hoe kunnen ze met zo’n camera zien of ik een telefoon vasthoud of bijvoorbeeld een navigatie-unit of zelfs een plak roggebrood? Die is ook zwart… Lees verder

Politiek wil waakhond op algoritmes, maar ik heb liever een keurmerk voor de trainingsdata

| AE 11336 | Innovatie | 14 reacties

De Nederlandse politieke partijen D66 en CDA roepen het kabinet dinsdag in een motie op toezichthouder op te zetten die het gebruik van algoritmes bij de overheid in de gaten houdt. Dat las ik bij Tweakers maandag. De macht van algoritmes is een steeds grotere angst aan het worden: ze zijn niet transparant, ze kunnen… Lees verder

In Estland denken ze dat AI een eerlijke rechter kan zijn

| AE 11279 | Innovatie | 9 reacties

De Baltische staat Estland timmert al geruime tijd fors aan de weg met wat wij e-government zouden noemen: innovatief en digitaal diensten aan de burger aanbieden, van een elektronische identiteitskaart tot een compleet online loket. Veilig, snel en goedkoop. En AI oftewel machine learning speelt daarbij een steeds grotere rol. Mede gedreven vanuit de behoefte… Lees verder

Facebook overtreedt mogelijk AVG door medewerkers posts te laten labelen

| AE 11265 | Ondernemingsvrijheid | 13 reacties

Facebook overtreedt mogelijk de Europese privacyverordening AVG door medewerkers van daarvoor aangestelde bedrijven te laten kijken naar posts om ze te labelen. Dat las ik bij Tweakers maandag. Een team van 260 mensen uit India leest al jaren alle berichten (inclusief foto’s) om die van labels te voorzien, zo ontdekte Reuters namelijk. Die labels classificeren… Lees verder

EU test nepwetenschappelijke leugendetector bij grenscontroles

| AE 10949 | Regulering | 16 reacties

Wat bizar: in Griekenland, Hongarije en Letland begint een test van de Europese Unie met een leugendetector bij de grenscontrole, las ik bij Tweakers. Het iBorderCtrl-systeem analyseert ‘microgezichtsuitdrukkingen’ van reizigers om te controleren of ze de waarheid vertellen. Niet alleen is deze test gebaseerd op onderzoek waarbij slechts 32 vrijwilligers betrokken waren als proefpersonen, er… Lees verder