Artificial intelligence is eigenlijk gewoon maar mensenwerk

Het stiekeme verhaal achter artificial intelligence: eigenlijk drijft het volledig op mensenkracht, aldus de Indian Express. Al die AI-systemen moeten leren wat wat is, en daarvoor is vooralsnog een heleboel mensenkracht nodig: in foto’s omcirkelen wat een chihuahua is en wat een muffin, teksten labelen als positief of negatief of aangeven of een actie terecht genomen is. Al dit labelen of taggen blijkt een steeds groter deel van thuiswerken en extra inkomsten in landen als India of Venezuela te worden. Interessant weetje of essentieel voor de toekomst van AI?

Artificial intelligence of iets specifieker machine learning is het vakgebied waarbij een computer op basis van een heleboel voorbeelden leert algemene regels te formuleren en daarmee weer conclusies te trekken. Dit is te onderscheiden in twee categorieën, supervised en unsupervised, waarbij het supervised learning momenteel het populairst is. Hierbij geef je de computer een hoop geclassificeerde voorbeelden (goed/fout, hond/cake, tumor/gezwel, rood/oranje/groen) waarna hij gaat zoeken naar onderscheidende kenmerken. Op basis van die kenmerken kan hij dan nieuwe voorbeelden interpreteren en daar een uitspraak over doen.

Er zijn ook andere manieren om van data te leren. Bij unsupervised learning verzint de computer zelf combinaties en clusters. Je hebt dan geen labels meer nodig. Nadeel is dan weer wel dat je niet op voorhand kunt inprogrammeren wat met welke cluster moet gebeuren – je weet immers niet wat er precies in zit.

Het is natuurlijk een gigantische berg werk om al die labeltjes in te typen, dus het verrast me niet dat dat massaal wordt uitbesteed aan lagelonenwerkers. Per labeltje betaalt het natuurlijk erg weinig, maar als je een paar dagen stevig doorwerkt dan kan het toch een leuke extra inkomstenbron zijn. En het lijkt betrouwbaarder dan oude publieke datasets gebruiken waar ik recent over blogde.

Maar het houdt natuurlijk wel een stevig risico in dat de toegevoegde labels toch een bepaalde onderliggende bias bevatten, hét grote probleem bij machine learning. Want mensen die je zo min mogelijk geld betaalt, hebben vooral een stimulus om zo veel mogelijk labels te plakken in plaats van de kwaliteit zo hoog mogelijk te krijgen. Dat lijkt me een fundamentele zorg bij het gebruik van dit soort systemen. Het is natuurlijk voor een deel op te lossen, bijvoorbeeld door meerdere mensen dezelfde data te laten labelen en alleen identieke labels te gebruiken, maar ideaal is ook dat niet.

Arnoud

5 reacties

  1. Arnoud……. je moet echt “Technocalyps” een keer kijken.

    Verder raad ik je het boek “Rechten en plichten van Robots” sterk aan. In dat boek worden diverse voorbeelden aangehaald hoe een geavanceerd AI te werk gaat. dat heeft niks meer met mensen van doen, maar (zoals op de beurs) van een volledig zelfstandig systeem met beslisbomen die niet door mensen in elkaar gezet zijn. Het verschil tussen programmeren en slimme algoritmes.

  2. Je hebt ook semi-supervised learning, waarbij een unsupervised algoritme de patronen vind (zonder labels) en je van deze patronen leert (met labels).

    Veel labels (in mijn vakgebied de meerderheid) zijn absoluut en hoeven niet handgelabeled te worden: Deze klant betaalde rekeningen niet, deze klant stopt met gebruik, deze klant bleek een fraudeur, deze klant geeft gemiddeld X uit per maand. Natuurlijk nog steeds een probleem met bias, maar minder als met handmatig labelen. Systemen die draaien op outsourcing van handmatige labels zijn vaak systemen waar het niet zo belangrijk is als er bias in het systeem achterblijft. Een recommender systeem zal vaker geweldadige aktiefilms aan mannen tonen dan aan vrouwen. Geslachtsbias? Vast en zeker. Maar ook accuraat en niemand die erover klaagt.

    Je krijgt natuurlijk waar je voor betaald. Als je centen betaald voor handmatig labelen, dan krijg je inderdaad veel werkers uit lageloonlanden. Dit kan dan cultuurverschillen in de labels inbakken. Indiers hebben over het algemeen een andere definitie van trollen of fake news dan westerlingen.

    Veel onderzoek ook naar hoe je labels objectiever kan maken. Zelfs met experts is zoals dokters en medisch specialisten is niet iedereen het eens over de “ground truth”. Je kan dit in het algoritme inbakken, zodat rekening wordt gehouden met “ratio eens/oneens” per sample. MS heeft recent onderzoek dat betere kwaliteit labels oplevert, door participanten te laten “inzetten” op de correctheid van een label. Labelers worden voorzichtiger als ze meer geld kunnen verdienen met correcte antwoorden. Wat correct antwoord is, bepalen de onderzoekers zelf voor het labelen begint, en deze correcte antwoorden worden random tussen ongelabelde examples geplaatst. Ander onderzoek richt zich op het identificeren van experts: labelaars die constant het eens zijn met de meerderheid. Of labelaars die aantonen expert te zijn door te gokken wat andere labelaars zullen invullen (“De hoofdstad van Australie is Canberra, maar veel mensen zullen Sydney antwoorden”).

    Ik ben zeer positief over de toekomst. Je kan een AI systeem bouwen op gelabelde fraudeurs, en dan dit AI systeem eerlijk maken (als menselijke beoordelaars gemiddeld genomen zwarte mensen eerder als fraudeur te beschouwen, dan is dit in de data terug te vinden en te corrigeren). Wat overblijft is een veel transparanter, objectiever, sneller, systeem, dan accurater is dan mensenwerk wat ooit de basis vormde. In plaats van te focussen op overnemen van bias, en automatiseren van een “racistisch” systeem, plaats de focus op het automatiseren van mensenwerk, en wiskundig corrigeren van menselijke bias.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.