Artificial intelligence is eigenlijk gewoon maar mensenwerk

| AE 10451 | Innovatie | 5 reacties

Het stiekeme verhaal achter artificial intelligence: eigenlijk drijft het volledig op mensenkracht, aldus de Indian Express. Al die AI-systemen moeten leren wat wat is, en daarvoor is vooralsnog een heleboel mensenkracht nodig: in foto’s omcirkelen wat een chihuahua is en wat een muffin, teksten labelen als positief of negatief of aangeven of een actie terecht genomen is. Al dit labelen of taggen blijkt een steeds groter deel van thuiswerken en extra inkomsten in landen als India of Venezuela te worden. Interessant weetje of essentieel voor de toekomst van AI?

Artificial intelligence of iets specifieker machine learning is het vakgebied waarbij een computer op basis van een heleboel voorbeelden leert algemene regels te formuleren en daarmee weer conclusies te trekken. Dit is te onderscheiden in twee categorieën, supervised en unsupervised, waarbij het supervised learning momenteel het populairst is. Hierbij geef je de computer een hoop geclassificeerde voorbeelden (goed/fout, hond/cake, tumor/gezwel, rood/oranje/groen) waarna hij gaat zoeken naar onderscheidende kenmerken. Op basis van die kenmerken kan hij dan nieuwe voorbeelden interpreteren en daar een uitspraak over doen.

Er zijn ook andere manieren om van data te leren. Bij unsupervised learning verzint de computer zelf combinaties en clusters. Je hebt dan geen labels meer nodig. Nadeel is dan weer wel dat je niet op voorhand kunt inprogrammeren wat met welke cluster moet gebeuren – je weet immers niet wat er precies in zit.

Het is natuurlijk een gigantische berg werk om al die labeltjes in te typen, dus het verrast me niet dat dat massaal wordt uitbesteed aan lagelonenwerkers. Per labeltje betaalt het natuurlijk erg weinig, maar als je een paar dagen stevig doorwerkt dan kan het toch een leuke extra inkomstenbron zijn. En het lijkt betrouwbaarder dan oude publieke datasets gebruiken waar ik recent over blogde.

Maar het houdt natuurlijk wel een stevig risico in dat de toegevoegde labels toch een bepaalde onderliggende bias bevatten, hét grote probleem bij machine learning. Want mensen die je zo min mogelijk geld betaalt, hebben vooral een stimulus om zo veel mogelijk labels te plakken in plaats van de kwaliteit zo hoog mogelijk te krijgen. Dat lijkt me een fundamentele zorg bij het gebruik van dit soort systemen. Het is natuurlijk voor een deel op te lossen, bijvoorbeeld door meerdere mensen dezelfde data te laten labelen en alleen identieke labels te gebruiken, maar ideaal is ook dat niet.

Arnoud

Natuurlijk gaat AI ook weer voor porno gebruikt worden

| AE 10382 | Innovatie | 14 reacties

Al jaren is het devies dat porno innovatie stimuleert. Niet heel gek, want het is goed geld verdienen daarmee en wie de concurrentie voor kan blijven met een nieuw trucje, zal dan ook niet aarzelen. Ergens zou je dan ook niet verbaasd moeten zijn dat ook kunstmatige intelligentie zijn opmars maakt in de porno-wereld. Meer specifiek: het fenomeen “deep fakes” zoals door Vice gerapporteerd, door AI gemaakte nep-porno met willekeurig gekozen personen in de hoofdrol.

Op zich is het niet nieuw, het idee dat je het gezicht van persoon A plakt op het lijf van persoon B die met een seksueel expliciete handeling bezig is. Dat was alleen altijd relatief bewerkelijk, helemaal als je dat met videobeelden wilde doen. Er is niet echt software daarvoor, behalve hele grote dure pakketten waar de filmindustrie scenes mee bewerkt.

Enige tijd geleden maakte een Reddit-gebruiker een creatieve toepassing van AI waarmee dit ineens wél kan op video, althans videootjes tot een seconde of tien. Heel kort door de bocht: de AI wordt getraind op het gezicht van het doelwit, en corrigeert in de bronvideo dan het aangewezen gezicht totdat het genoeg lijkt op het doelwit. Dit soort correcties zijn technisch niet heel nieuw, ze worden ook gebruikt om gewone foto’s op te knappen. De toepassing is natuurlijk wel vernieuwend, en dat was mijn punt uit de eerste alinea: porno is een sterke driver om nieuwe technologie populair te maken en verder te ontwikkelen. Want nu dit mogelijk blijkt, wordt het interessant om ook eens naar andere toepassingen te kijken: concurrenten of politieke tegenstanders voor gek zetten, of vals bewijs in burenruzies maken, om eens wat te noemen.

Specifiek bij porno, kun je er wat aan doen als je jezelf hierin terugziet? In Amerika niet, maar bij ons wel: dit is natuurlijk een geautomatiseerde verwerking van persoonsgegevens (en ook nog eens bijzondere, immers seksualiteit) en daar is gewoon uitdrukkelijke toestemming voor nodig. Zonder toestemming zou alleen het legitiem eigen belang een grondslag kunnen zijn, maar bij pornografie kan ik me dat belang gewoon niet voorstellen.

In Amerika ligt dit iets moeilijker, omdat ze het daar niet als privacyschending zien omdat het beeld niet over jou gaat maar over een ander (de acteur/actrice). Een klacht daarover is dus juridisch lastiger afdwingbaar, en platforms zoals Reddit zijn niet verplicht erop in te grijpen. Dat maakt het in de praktijk moeilijk om er wat aan te doen.

Arnoud

AI net zo goed als willekeurige mensen in het voorspellen van recidive

| AE 10360 | Innovatie | 22 reacties

AI-software blijkt net zo goed als een groep willekeurige mensen in het voorspellen van recidive bij Amerikaanse veroordeelden, las ik bij Ars Technica. Onderzoekers van Dartmouth College vergeleken de uitkomsten van de COMPAS software (die met machine learning technieken recidive probeert te voorspellen) met de inschatting van willekeurige mensen geworven via Amazon’s Mechanical Turk. Beiden bleken ongeveer even accuraat (65 en 62% respectievelijk), opmerkelijk genoeg inclusief de vooringenomenheid die eerder bij de software tot controverse leidde.

De COMPAS software (Correctional Offender Management Profiling for Alternative Sanctions) berekent op basis van een hele berg factoren de kans dat een bepaald persoon in recidive zou vervallen. Deze uitkomst wordt in Californië meegenomen in het besluit welke straf aan een veroordeelde op te leggen. In 2016 bleek uit onderzoek dat de software enige bias oftewel vooringenomenheid vertoonde, namelijk dat gekleurde mensen vaker ten onrechte als recidivist werden gesignaleerd en witte juist vaker ten onrechte als géén recidivist.

Accuratesse in AI en machine learning is een heel lastig onderwerp. Wat betekent het dat je software 94,1% nauwkeurig is (de huidige score van mijn NDA Lynn geheimhoudingscontractenanalyserobot)? Meestal wordt ermee bedoeld dat in 94,1% van de gevallen de uitkomst van de AI gelijk is aan de verwachte of correcte uitkomst. En 5,9% van de gevallen is dus onjuist. Maar dat kan twee kanten op:

  1. Vals positief: een uitkomst wordt als positief (juist) aangemerkt, maar is eigenlijk negatief (onjuist). Bij de COMPAS software dus dat iemand recidivist zou zijn terwijl hij dat niet is.
  2. Vals negatief: een uitkomst wordt als negatief (onjuist) aangemerkt, maar is eigenlijk positief (juist). Bij COMPAS dus dat iemand recidive pleegt terwijl de software voorspelde dat hij dat niet zou doen.

Beide onjuiste uitkomsten zijn onwenselijk, maar om verschillende redenen. Een vals positief zorgt ervoor dat je meer energie in iemand steekt dan nodig is: je gaat iemand langer opsluiten of intensiever begeleiden om recidive te voorkomen terwijl dat helemaal niet speelt. En een vals negatief kost je meer achteraf, je hebt immers een nieuw misdrijf van die recidivist en dat had je nu net willen voorkomen.

Het is niet goed mogelijk beiden tegelijk te minimaliseren. Vaak zie je dat wanneer je de één in aantallen terugdringt, de ander groter wordt. Je kunt bijvoorbeeld eerder concluderen dat mensen recidive zullen plegen, waardoor je de vals negatieven vermindert. Er worden immers minder mensen vrijgelaten die recidivist blijken. Maar je hebt nu wel meer mensen ten onrechte als recidivist aangemerkt. En omgekeerd zou precies hetzelfde gebeuren, als je strenger bent in je beoordeling zul je minder mensen ten onrechte als recidivist aanmerken, maar daardoor ook eerder recidivisten laten gaan.

De kritiek op de COMPAS software richtte zich natuurlijk op de bias die de valse uitkomsten zou baseren op etnische afkomst. De vergelijking met gewone mensen laat nu zien dat dit niet perse de oorzaak is. Deze kregen namelijk de gegevens zónder indicatie van etnische afkomst, en gaven grofweg dezelfde voorspelling over recidive. Inclusief een hogere vals positief bij gekleurde mensen en een hogere vals negatief bij witte mensen. Dat zou dan eerder de conclusie rechtvaardigen dat die software er ook maar een gooi naar doet. Geen bias dus maar ook geen inhoudelijke analyse.

Arnoud

Nee, kunstmatige intelligentie zal nooit gaan rechtspreken (of pleiten)

| AE 10195 | Innovatie | 21 reacties

Een computer kan rechtspreken, als wij met zijn allen denken en willen dat hij het kan. Dat las ik bij Sargasso in een gastbijdrage van strafrechtadvocaat Vasco Groeneveld. AI komt eraan, ook in de rechtspraktijk. Die lijn doortrekkend betekent dat er over tien, twintig jaar robotrechters aan het werk zijn, niet gehinderd door emotie, hoofdpijn,… Lees verder

Het onderbelichte probleem van dataverzameling in de artificial intelligence

| AE 9913 | Innovatie | 14 reacties

Jaja, vrijdag wordt machine learning/AI dag, maar ik vond vrAIdag zo’n rare hashtag. Deze week een netelige en vaak onderbelichte kwestie: hoe kom je aan je data? Veel mensen denken dat het bij AI vooral gaat om het bouwen van het netwerk, maar dat is in feite niet meer dan op de “Generate” knop drukken… Lees verder

Wanneer verdient een AI rechtspersoonlijkheid?

| AE 9832 | Innovatie | 11 reacties

In India kun je door een rivier worden gedagvaard, las ik onlangs (dank, tipgever). De rivieren de Ganges en de Yumana hebben daar dit voorjaar rechtspersoonlijkheid toegekend gekregen, zodat ze zelfstandig claims kunnen indienen tegen hun vervuilers. Ook bij dieren speelt die discussie. Dat is een opmerkelijke noviteit, en voor de tipgever aanleiding me te… Lees verder

De uitlegbaarheid van AI-uitspraken

| AE 9654 | Innovatie | 12 reacties

Steeds meer legal tech diensten maken gebruik van kunstmatige intelligentie oftewel AI. Dit is een belangrijke ontwikkeling: hiermee kunnen machines zelf beslissingen nemen of analyses uitvoeren die voorheen alleen door mensen gedaan konden worden. Denk aan dossiers doorspitten op zoek naar belastend materiaal, of juist oude afspraken terugvinden in een berg correspondentie. Maar steeds vaker… Lees verder