Het onderbelichte probleem van dataverzameling in de artificial intelligence

Bewerking/parodie van XKCD, bron https://xkcd.com/303/Jaja, vrijdag wordt machine learning/AI dag, maar ik vond vrAIdag zo’n rare hashtag. Deze week een netelige en vaak onderbelichte kwestie: hoe kom je aan je data? Veel mensen denken dat het bij AI vooral gaat om het bouwen van het netwerk, maar dat is in feite niet meer dan op de “Generate” knop drukken en het ding een nachtje laten stampen. AI als technologie is vrijwel een commodity. Het gaat erom wat je erin stopt, want dat bepaalt voor vrijwel 100% wat eruit komt. En daar zit hem het probleem.

AI en big data lijken als hype hand in hand te zijn opgekomen. En dat is niet gek, want AI is in feite weinig meer dan statistische analyse op grote datasets, en hoe groter de dataset, hoe accurater de uitkomsten van de analyse. Dus als je gigantisch veel data hebt, dan krijg je behoorlijk goede resultaten. Maar hoe kom je aan die data?

Er zijn grofweg twee manieren: je kunt alle data zelf verzamelen, of je kunt datasets van anderen betrekken. De eerste manier is behoorlijk duur en tijdrovend, en werkt eigenlijk alleen bij de grote platforms zoals Facebook die nu eenmaal heel veel mensen hebben die data genereren. Of onderzoeksinstellingen die grootschalige metingen kunnen doen op allerlei fenomenen. Voor veel partijen is er alleen de tweede manier: zie ergens een dataset te pakken te krijgen.

Die tweede manier is nog behoorlijk problematisch. Vanwege rechtenkwesties en natuurlijk de zorg over persoonsgegevens in de data wordt vaak teruggegrepen op publieke datasets. Uit een recent paper blijkt echter dat dit goed kan leiden tot bias in de AI. Zo is er een publieke dataset van 1,6 miljoen interne e-mails uit het controversiële bedrijf Enron, welke vanwege justitieel onderzoek openbaar zijn geworden. Deze zijn een mooie dikke dataset om sentimentanalyse te doen, grammatica te leren herkennen en ga zo maar door. Maar goh, wat voor voorbeeld neem je als je de mails gebruikt van een Texaans bedrijf dat omviel vanwege gigantische fraude?

Andere systemen worden gebouwd op basis van stokoude bronnen, zoals publiekdomeinboeken omdat je dan auteursrechtelijk veilig zit. Maar het doet nogal wat met een systeem of je hem traint op Charles Dickens dan wel Dan Brown (om mevrouw Van der Plas niet weer te noemen 😉 ). Taalgebruik zal verouderd zijn, en vooral: ook hier een grote kans op vooringenomenheid qua wereldbeeld.

En daar zit dus in de kern het probleem: de datasets waar iedereen mee kan werken, zitten scheef en leveren dus geen betrouwbare basis op voor een AI systeem dat aanbevelingen of beslissingen doet. En waar je mee zou moeten werken, zit opgesloten achter auteursrechten of is onbereikbaar omdat de eigenaar het als privé beschouwt.

Arnoud

14 reacties

  1. Aardig stukje, al eerder belicht natuurlijk, waaronder in de TED talk van Zeynep Tufekci. Dit is een enorm en groeiend maatschappelijk probleem, voornamelijk doordat we steeds meer in online ‘filter bubbles’ zitten met net die data, net die artikelen die ons langer op een site of een platform laten blijven. Dit maakt maatschappelijk debat nog moeilijker dan het al was.

    Een bronvermelding naar XKCD was wel erg netjes geweest, Arnoud.

  2. Wat mij intrigeert is het volgende: kun je als privepersoon eisen dat jouw data uit de trainingsset gehaald wordt. Op grond van de AVG zeg ik Ja. En kun je dan ook eisen dat alle historische AI trainingen geannuleerd worden en opnieuw gedaan worden? Logischerwijs zou je zeggen: dat moet dan ook ja zijn, alleen wordt dat in de praktijk natuurlijk onmogelijk.

    Een tweede aspect is ook: Hoe kun je met de AVG in hemelsnaam ooit een dataset als trainingsmateriaal opbouwen. Je kunt allerlei afwegingen maken waarom het verdedigbaar is om data van klanten, of andere personen bij te houden uit eigenbelang. Maar ‘ik wil zo graag een trainingsdataset samenstellen’ komt natuurlijk nooit door de giecheltoets.

  3. Begrijpelijke problematiek.

    Toch heeft een bedrijf als Linguee/DeepL dat kennelijk goed weten op te lossen. Ze hebben o.a. EU-teksten gebruikt (en zelfs wat rommel van mijn website), maar er moet veel en veel meer zijn geweest. De resultaten van DeepL zijn af en toe griezelig goed. Hangt een beetje van de taalcombi af. Nederlands-Engels is minder goed dan Engels-Duits, is mijn indruk. Die laatste gebruik ik tegenwoordig (wel met nabewerking!) om snel aan Duitse artikelversies te komen, wat anders nooit haalbaar zou zijn zonder een echte vertaler te betalen. (En dat laatste ga ik niet doen, omdat die teksten ook nul komma niks opleveren.)

    Meer uitleg in http://rudhar.com/lingtics/machtrns/ia01.htm, maar dat kan toch niemand lezen, zelfs niet met Google Translate, ha ha!

  4. However, a company like Linguee/DeepL has apparently managed to solve this problem. Among other things, they have used EU texts (and even some clutter from my website), but there must have been a lot and much more. The results of DeepL are sometimes creepy good. A little bit hangs off the language combination. Dutch-English is less good than English-German, is my impression. I use the latter nowadays (although with post-processing!) to quickly get German article versions, which otherwise would never be feasible without paying a real translator. (I am not going to do the latter, because those texts also yield zero comma nothing.

  5. Creepy good? Bijwoorden, onbekend? Hangs off the language combination? DeepL kent het woord ‘depend’ niet? Gisteren ontdekte ik bij toeval dat hij bij “aantekeningen bijhouden” denkt het over liefde gaat!

    En dat-ie zo’n eindsluithaakje weglaat heb ik ’m ook eerder zien doen.

  6. Dit is een enorm probleem in een jonge industrie, waar standaarden en regulatie op zich laten wachten.

    Als je als engineer een brug aflevert en deze stort later in, dan kun je persoonlijke verantwoordelijkheid dragen. Als je als data scientist een model aflevert en deze blijkt te discrimineren op ras? Waarschijnlijk een bonus, omdat niemand naar de bias kijkt, maar naar de accuraatheid.

    Het de-biasen van data is ongelofelijk moeilijk, onderzoek hiernaar is nieuw en vrij theoretisch (hogere wiskunde, statistiek, sociologie, cryptografie etc.). Er is bijvoorbeeld het probleem van redundant encoderen van beschermde variabelen: Leeftijd, inkomen, baan zijn goede voorspellers voor geslacht. Als iemand in de Bijlmer woont, dan is deze persoon vaker zwart dan wit.

    Bijkomend probleem is dat je deze beschermde variabelen nodig hebt om bias te ontdekken. Als iemand een model bouwt op locatie variabelen, maar niet naar ras kijkt, dan denkt men misschien niet discriminerend bezig te zijn, maar dat komt alleen uit onwetendheid. Zonder de beschermde variabele is niet aan te tonen dat postcode 5555 voor 90% uit Surinaamse Nederlanders bestaat.

    Mogelijk, met de opkomst van theoretische (en pragmatische) differentiele privacy, kan een model worden gebouwd dat volledig zonder bias is, zonder expliciete toegang te hebben tot beschermde variabelen zoals geloofsovertuiging, ras, leeftijd, geslacht.

  7. Dit is ook precies waarom ik enquêtes vaak niet erg vertrouw. Ze hebben beiden hetzelfde probleem. Eraan willen meedoen is een voorwaarde. En dat is al een bias. Kortgezegd, voor zowel enquêtes als AI datasets, je mist de mensen die niet willen meedoen. Je mist mensen die bijvoorbeeld mediaschuw zijn, of digibeet, of analfabeet, of lui, of gewoon een hekel hebben aan alles. Ik zou niet weten hoe je dit oplost, maar het gaat een beetje op democratie lijken. Als je niet meedoet, kun je niet klagen dat een AI niet doet wat je wil.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.