Toch nog even over die uitlegbaarheid van AI uitspraken

| AE 9974 | Innovatie | 33 reacties

Analyses van AI’s zijn niet meteen naar uitleg of verklaringen om te zetten, schreef ik in oktober. En dat is best wel een probleem, zeker waar die analyses leiden tot juridisch bindende besluiten. Een veelgehoorde eis aan AI’s is dan ook dat zij in staat zijn tot uitleg – in het jargon moeten AI’s white boxed zijn. Maar dat is niet genoeg. Er zit volgens mij een heel fundamentele foute aanname onder die eis, namelijk dat een AI-uitspraak uitlegbaar kán zijn zoals een menselijke uitspraak.

Een grote zwakte van AI analyses is dat ze meestal zonder uitleg komen. Deze mail is spam en die niet, je kunt beter linksaf gaan want dat is sneller, of als je in het spel nu schiet dan heb je de meeste kans om te winnen. Zelden tot nooit krijg je erbij te horen waarom dan. Maar omdat het heel vaak klopt, vinden we dat ook niet erg.

Vanuit juridisch perspectief kan dat toch eens best vervelend zijn, zeker als sprake is van een AI die juridisch bindende besluiten neemt. Uw bouwvergunning wordt afgewezen, u komt niet in aanmerking voor verkorte screening, u dient een extra cursus te volgen voordat u mag beginnen met deze studie. Die zorg gaat zo ver dat in de AVG expliciet is opgenomen dat dergelijke besluiten niet genomen mogen worden maar dat er altijd een mens tussen moet zitten, én dat er uitleg over de onderliggende logica van het besluitondersteunende systeem moet komen.

Dit veronderstelt dat de AI kán uitleggen hoe zhij tot het besluit is gekomen. En volgens mij kán dat fundamenteel eigenlijk niet.

Veel nadruk is de afgelopen jaren gekomen voor zogeheten white box AI’s, oftewel systemen die geen zwarte doos zijn maar juist inzicht geven in hoe men tot een besluit komt. BigML, het bedrijf waar mijn AI NDA Lynn op draait, heeft bijvoorbeeld de feature dat een analysemodel aangeleverd wordt als een beslisboom. Je kunt dan van stap tot stap precies zien welke criteria er zijn overwogen en wat de doorslag gaf bij twijfel. Daarmee is de uitlegbaarheid een feit, zou je denken.

Een oude computergrap luidt, don’t anthropomorphize computers, they don’t like that. In feite is dit het nadeel van “statistische analysetechnieken” het labeltje “kunstmatige intelligentie” te geven. Want de ‘uitleg’ die je uit zo’n witte doos krijgt, is eigenlijk niet meer dan een stack trace, een lijst van stappen die de software nam om door de data heen te komen. Je krijgt bijvoorbeeld te horen “als Venue bevat niet Californië en lengte < 800 woorden en Aansprakelijkheid bevat niet Dientengevolge dan goedgekeurd”. Ja, dat is een uitleg maar geen mens die ooit op die manier zou uitleggen waarom het contract goedgekeurd is. Plus je mist zo wat er met andere informatie is gebeurd, was die niet belangrijk?

Ik denk dat dit uiteindelijk geen oplosbaar probleem is, want een AI werkt nu eenmaal op deze manier. Gegeven een heleboel voorbeelden, analyseer op welk voorbeeld het beste de input lijkt. Daarbij kun je moeilijk afdwingen dat de AI dezelfde criteria hanteert als de mens, vaak héb je die eigenlijk niet. Je gebruikte immers AI omdat je met gewoon menselijk redeneren er niet goed uit komt.

Arnoud

Deel dit artikel

  1. Het voorbeeld van een beslissing van een routeplanner:

    je kunt beter linksaf gaan want dat is sneller

    valt een beetje buiten de boot, omdat deze beslissing door een wiskundig algoritme wordt genomen, en niet door AI. Bij AI hangt het van het algoritme af wat voor uitleg je krijgt. Bij een neuraal netwerk krijg je een trace (geen stack trace want daarin zitten niet de uitkomsten van alle IFs), terwijl je bij een support vector machine wel precies ziet hoe elke factor bijdraagt aan het resultaat. Spamassassing geeft bijvoorbeeld de volgende output:

    X-Spam-Status: Yes, score=6.343 taggedabove=2.0 required=6.31 tests=[BAYES50=0.8, DOSHIGHBITHDRSBODY=1, FROMMISSPMSFT=1, RCVDINBLSPAMCOPNET=1.347, STOXREPLYTYPE=0.439, STOXREPLYTYPEWITHOUT_QUOTES=1.757] autolearn=no

      • De 0.8 is de bijdrage aan de totaalscore in de support vector machine. Je doelt denk ik op de 50 die aangeeft dat bayes tussen 40% en 60% scoort die de spambeslissing voor de gebruiker ondoorzichtig maakt. Bayes is een classifier die getraind is op basis van de inhoud van oude e-mails, en voor elke token (zeg maar elk woord) bijhoudt hoevaak die in spam en hoevaak die in ham voorkwam. Via “sa-learn –dump data” kan de sysadmin (niet de eindgebruiker) daar inzicht in krijgen. Een lidwoord (als dat een token zou zijn) zou rond de 0.5 scoren (wat aangeeft dat spam/ham even waarschijnlijk zijn), terwijl een woord als viagra dichter bij 1 scoort (waarschijnlijk spam). De Bayes-classifier zou bij elke e-mail de woorden met de meeste invloed op de eindscore (dus dicht bij 0 of 1) kunnen tonen, waardoor ook dat geen black box meer is (al is dat met spamasassin voor zover ik weet niet mogelijk).

        De tussenconclusie is dat support vector machines en Bayes allebei inzichtelijk zijn, terwijl neurale netwerken dat niet zijn.

          • Het is en het blijft Bayesian inference. De woorden inheritance en million scoren hoog omdat in de training set veel mail zat waarin deze woorden voorkwamen die als spam waren aangemerkt. De voorwaardelijke kans dat een mail spam is gegeven dat deze woorden er in voorkomen is hoog.

            Bayes kijkt niet naar causaliteit, die kan je er dus ook niet uithalen. De causaliteit zou je moeten zoeken bij degenen die de trainingsmails geclassificeerd hebben. Waarom heb je aan deze mails met deze termen de classificatie spam gegeven. Aangezien er niet naar causaliteit wordt gekeken, kan het dus zijn dat het een random kenmerk is dat puur een gevolg is van de gekozen dataset en welke verdwijnt bij meer trainingsdata. Maar die kans wordt kleiner bij meer trainingsdata. En voor spam hebben we genoeg trainingsdata.

            Of val jij nu over het feit dat je met Bayes uitspraken krijgt als ‘er is een kans van 50% dat dit bericht spam is’ i.p.v. de klassieke statistiek waarin je zegt: dit bericht is spam, ik mijn gebruikte methode geeft met x% zekerheid de juiste uitkomst. Dat is een discussie die inmiddels meer dan 100 jaar loopt en waar ik de interesse al lang in heb verloren. 🙂

            • Nee, het gaat me echt over de inhoud van de argumenten, de onderbouwing van de conclusie dat het spam is. Heel goed punt dat het zit in de trainingset en dat je eigenlijk moet achterhalen waarom men die mails spam noemde en andere niet. Maar dan nog. Een Bayesian netwerk gaat op zoek naar correlaties, en dat zijn niet perse de criteria waarmee de trainingset werd geselecteerd. Als alle spamberichten een .cn adres hebben, en geen enkele ham heeft zo’n adres, dan zal het netwerk een mail met .cn 100% accuraat als spam aanmerken. Dat klopt perfect, maar is dus gebaseerd op een toevalligheid die niemand zag aankomen en dus ook niet kon motiveren.

              Ik denk dat dit onoplosbaar is. Als je criteria kunt formuleren, kun je er ook een beslisboom van maken. Je zet juist AI/heuristiek/classifiers in omdat je niet goed weet wat de criteria moeten zijn of omdat je er niet goed op kunt selecteren anders dan door correlatie. En dat is prima als het gaat om het resultaat (een DDOS aanval stoppen maar legitiem verkeer doorlaten, herkennen van een aankomende storm ten opzichte van gewoon een stevige hoosbui etc) maar wanneer de eis is dat er óók een argumentatie moet komen dan heb je dus een probleem.

              • Een groter probleem nog is dat, net als bij gewone statistiek, de beslissing net zo goed is als de training data (uit het verleden) waarbij het gaat om de voorspelling vandaag (je hebt zakelijke contacten met China ontwikkeld, dus nu wel Chinese letters in ham).

                Het is heel belangrijk voor dit soort toepassingen dat ze: vergeetachtig zijn (voorbeelden uit het verleden verliezen waarde – na de initiele training heeft een nieuwe meeting heeft evenveel invloed ongeacht de hoeveelheid metingen in het verleden), kunnen detecteren dat een voorspelling niet mogelijk is omdat het buiten de “ervaring” van het systeem valt; en hoe ze misvoorspellen (hebben ze het een beetje mis – het werd 20 graden in plaats van 19 vs diepe vorst in plaats van een hittegolf)

          • Er zijn inderdaad weinig Bayesnetwerken die een concrete uitleg geven, hoewel dat conceptueel eenvoudig zou kunnen. Met die informatie kun je een herzieningsverzoek van argumenten voorzien, terwijl dat met een ja/nee-antwoord of het getal 50 niet kan. Dat inheritance hoog scoort, geeft aan dat het e-mailbericht waarschijnlijk spam is. Het tegenbewijs kan zijn dat het woord in de context van jouw mail heel gewoon is, bijvoorbeeld door het overleggen van een overlijdensakte of een arbeidscontract waarin staat dat je OOP doceert.

            • Wat ik daar lastig aan vind, is dat die argumenten totaal niet zijn wat mensen zouden zeggen. Het is nogal moeilijk om te reageren op “uw mail werd als waarschijnlijk spam aangemerkt omdat de trefwoorden daarin zeer accuraat matchen met onze spamdatabase”. Dit klopt wel maar wat kun je er mee? Terwijl “Uw brief wordt niet behandeld omdat deze niet ondertekend is en geen kopie identiteitsbewijs was bijgesloten” een argument is waar je inhoudelijk op in kunt gaan: waar staat dat een handtekening moest, en die kopie mag u niet eisen onder de privacywetgeving.

  2. Waarom ga je er van uit dat een menselijke uitspraak uitlegbaar is? Volgens mij is dat alleen zo als een mens “machinaal” een vastgelegde procedure volgt: dan kan je precies volgen welke stappen in de procedure tot het besluit hebben geleid.

    Ik heb niet meteen een link voor je, maar ik heb wel eens gelezen over experimenten die zijn uitgevoerd op mensen waarbij de verbindingen tussen de hersenhelften waren doorgesneden (dat was een ingreep die vroeger werd toegepast ter behandeling van bepaalde neurologische aandoeningen). Het spraakcentrum bevindt zich in één van beide hersenhelften, en de ogen zijn elk met één hersenhelft verbonden. In een experiment werd zo’n persoon aan één oog middels een bordje de opdracht getoond om iets te doen (het raam open doen of zo); die persoon voerde die opdracht dan uit. Het oog dat de opdracht te zien kreeg was verbonden met de hersenhelft waarin het spraakcentrum niet zit. Na afloop werd de persoon (mondeling) gevraagd waarom ‘ie de actie had uitgevoerd. Je zou verwachten dat de persoon ofwel zou zeggen “omdat dat op het bordje stond” of “ik weet het niet”, maar meestal gaven mensen een compleet ongerelateerde uitleg (bijv. “ik had het warm”).

    Volgens mij worden beslissingen in de hersenen niet op een centrale plek genomen, maar is ieder deel van de hersenen min of meer autonoom met zijn eigen dingetje bezig. Het gevolg van de spreiding van complexiteit is dat verschillende delen geen weet hebben van elkaars interne functioneren en motivaties. Als dus bij het spraakcentrum een waarom-vraag binnen komt, dan kan dat spraakcentrum geen volledig correct antwoord formuleren, omdat het niet over alle informatie beschikt. Doorgesneden hersenverbindingen zijn een extreme situatie, waarin er helemaal geen informatie beschikbaar is.

    Ik zie de “uitleg” die mensen bij hun besluiten geven vooral als iets dat een sociale functie heeft: je probeert de ander te overtuigen dat jouw besluit verstandig is, slim, sociaal wenselijk of wat dan ook. Het heeft niet per sé iets te maken met je werkelijke motivaties. Dat heeft niets te maken met oneerlijkheid: je kunt als mens normaal gesproken je werkelijke motivaties niet via spraak formuleren.

    • Je aanname klopt helaas niet helemaal. Het onderzoek bewijst dat de ene hersenhelft een reden verzint als de informatie uit de andere hersenhelft ontbreekt. Maar als de verbinding er wel gewoon is, kan de persoon wel reproduceren waarom die deed wat die deed. Dat gezegd hebbende, het is wel zo dat herinneringen onbetrouwbaar zijn. Hoe ouder de herinnering, hoe meer het flarden zijn die je hersenen proberen aan elkaar te knopen tot een logisch geheel. Hierdoor kunnen ongerelateerde delen worden toegevoegd en relevante informatie worden verwijderd, omdat het niet in het aan elkaar gebreide geheel past. Dit is waarom getuigenissen in rechtszaken nogal problematisch kunnen zijn. Dit kan er daarom wel voor zorgen dat, met name als er meer tijd verstreken is, of als de persoon onder een vorm van druk de actie heeft moeten uitvoeren, de reconstructie van de redenering niet langer klopt en meer een “backsplanation” was. Het achteraf verzinnen van een uitleg waarom je het zo deed, maar doen alsof je je overwegingen van het moment herinnert.

    • Wat Kors zegt. Ik denk dat vereist is dat je in ieder geval toetst op duidelijke blunders en vooral dat er een directe menselijke schakel in het contact is. Een computerscherm dat nee zegt op je hypotheekaanvraag, is toch anders dan een medewerker die met gepaste verontschuldigingen nee zegt en aangeeft dat het hem vooral zit in de prijs van het huis en je betaalgeschiedenis van de afgelopen vijf jaar, met name die schuld bij de Wehkamp. Vooral omdat je dan kunt zeggen dat je die schuld niet hebt en/of dat het huis geen 825 ton was maar 285.

  3. Die zorg gaat zo ver dat in de AVG expliciet is opgenomen dat dergelijke besluiten niet genomen mogen worden maar dat er altijd een mens tussen moet zitten, én dat er uitleg over de onderliggende logica van het besluitondersteunende systeem moet komen.Dit veronderstelt dat de AI kán uitleggen hoe zhij tot het besluit is gekomen. En volgens mij kán dat fundamenteel eigenlijk niet.

    Het is echter de vraag of ‘uitleg over de onderliggende logica’ moet worden opgevat als ‘laat zien wat alle overwegingen en uitkomsten daarvan waren in het besluitvormingsproces’. Ik kijk daar anders tegenaan: je moet op hoofdlijnen kunnen uitleggen wat de ‘gedachte’ achter de besluitvorming is, waarbij de input (een van de weinig dingen die je wél in zicht hebt) en het gevolg belangrijke aanknopingspunten zijn. Iets a la ‘op basis van uw adresgegevens wordt een statistische analyse gemaakt waarmee de kans op schade en het bijbehorende risico wordt ingeschat. Op basis van deze analyse wordt uw premie berekend.’ Het gaat dan te ver om alle onderliggende berekeningen en factoren te tonen, al is het maar omdat niemand dat zou begrijpen.

    M.i gaat het erom / moet het erom gaan dat je altijd protest moet kunnen aantekenen tegen besluiten die geautomatiseerd zijn genomen en waar jij ‘last’ van hebt, en dat je vervolgens recht hebt op heroverweging van het besluit. Daarbij moet die heroverweging op een andere manier plaatsvinden dan volledig geautomatiseerd.

    De uitlegbaarheid van het geautomatiseerde besluit is daarbij imho minder belangrijk, en zie ik vooral als “gij zult eerst goed uitzoeken of uw AI / andere automatische beslisser voldoende betrouwbaar is” aangevuld met “gij zult een alternatieve procedure voorhanden hebben indien in specifieke gevallen getwijfeld wordt aan de betrouwbaarheid van het geautomatiseerde besluit”. Net zoals je in bezwaar/beroep moet kunnen gaan bij een besluit van een mens.

    Oftewel: wees je bewust van het feit dat computers het net als mensen wel eens fout kunnen hebben en richt je processen daarop in.

  4. Is dat werkelijk een wenselijk beleid: als het niet kan worden uitgelegd, dan moeten we het maar zonder uitleg accepteren? We hebben nu al een aantal praktijkvoorbeelden gezien, waar AI-programma’s menselijke vooringenomenheden (biases) klakkeloos overnemen, omdat deze ook in de trainingsdata voorkomen.

    Ik denk daarom dat voor veel mensen de aanname niet per se is dat AI-uitspraken uitlegbaar zijn, maar dat uitspraken principieel uitlegbaar moeten zijn. Hoe weet je anders wat aan je bouwplannen gewijzigd moet worden om alsnog voor een vergunning in aanmerking te komen?

    Sterker nog, in de VS worden AI’s al voor de vaststelling van borgtocht, vluchtgevaar, voorwaardelijke vrijlating e.d. gebruikt. Daarbij wordt aan niet-blanke mensen schijnbaar automatisch een groter risico toegekend. En omdat dat alles binnen een black box gebeurt, heeft de beklaagde niet eens de mogelijkheid, het resultaat aan te vechten. Lijkt me niet echt een vooruitgang m.b.t. mensenrechten.

  5. Met het risico dat deze post niet geplaatst wordt (Mijn vorige twee epistels over AI werden niet geplaatst :().

    Dit veronderstelt dat de AI kán uitleggen hoe zhij tot het besluit is gekomen. En volgens mij kán dat fundamenteel eigenlijk niet.

    Dit is een aparte tak binnen AI, onder de noemer “interpretable machine learning”. Het kan wel, zelfs met zwarte box modellen.

    Bias & Oneerlijkheid: https://fairmlclass.github.io/

    Interpretatie: https://christophm.github.io/interpretable-ml-book/ (en LIME: https://arxiv.org/abs/1602.04938)

  6. Ik ben het met Corné en Kors eens: ook bij mensen vragen we vaak niet om een dichtgespijkerde argumentatie, en vaak is die er ook niet: mensen werken net zo goed heuristisch en opportunistisch als computers dat doen.

    Het probleem lijkt me dus niet zozeer dat AI heuristisch of volgens ongedocumenteerde redeneerstappen te werk gaat, maar dat bij het inzetten van computers mensen de neiging hebben ook hun verantwoordelijkheid en aansprakelijkheid naar die computers toe te schuiven, en dat kan niet: een computer of een stuk software is geen rechtspersoon, en zal dat voorlopig terecht ook niet worden. Je blijft dus zelf aansprakelijk voor een beslissing, ook als je het proces daarachter uitbesteedt aan een computer.

  7. Ik denk dat dit een belangrijk vraagstuk is. Als men namelijk tot de conclusie komt dat: AI kan niet uitleggen hoe zhij tot een besluit is gekomen, dan betekend dit dat alle Europese blackbox modellen op de schop kunnen.

    Zie bijvoorbeeld: European Union regulations on algorithmic decision-making and a “right to explanation”.

    Dit zal een enorme negatieve impact hebben op de toekomstige economie van Europa. White box modellen zijn niet veranderd sinds 1980. Als men gedwongen wordt met white box modellen te werken in de financiele industrie, dan zet je dus die industrie terug in de tijd.

    Je kan onderscheid maken tussen interpretatie en accuraatheid (deze los van elkaar zien). Zie dit als een sportcommentator, bijvoorbeeld iemand met een internationale master titel die een schaakwedstrijd van grootmeesters becommentarieerd. Zelfs al is de internationale master niet zo slim/accuraat als de grootmeesters, ze kunnen nog steeds de moves uitleggen. Het is zeldzaam dat een speler (of commentator) niet verder komt als: “het voelde gewoon lekker op deze manier”.

    Ik hoop dat dit mogelijk blijft voor zwarte box modellen. Gebruik een complex neuraal netwerk voor de meest accurate voorspellingen, en gebruik een ander, meer inzichtelijk model, om de voorspellingen van het neurale netwerk te verklaren.

    Er blijft echter een risico van bias en valsspelen. Bias: Uw specifieke hypotheek wordt geweigerd, omdat u in de Bijlmer woont. Klinkt redelijk, totdat je je realiseert dat 90%+ van de Bijlmer bewoners zwart is. En natuurlijk valsspelen. Kredietverstrekkers zijn ook commercieele bedrijven, die niet graag krediet verstrekken aan een klaploper, en zullen alles binnen de wet doen om alleen krediet te verstrekken als het hun winst oplevert. In het zwarte box model wordt dat erg veel gediscrimineerd, maar het witte box uitlegmodel zal net zolang zoeken tot het een uitleg kan geven die 1) overeenkomt met de beslissing van het zwarte box model 2) geen gebruik maakt van beschermde variabelen zoals ras, geslacht, of sexuele geaardheid. The “Right to explanation” is geen “Right to source code”.

    • Is het fundamenteel onaanvaardbaar om te zeggen, AI systemen moeten uitlegbaar zijn? Het voelt voor mij van dezelfde orde als oude diesels weren uit de binnenstad: heel vervelend voor alle dieselauto-bezitters, maar de maatschappij heeft er veel last van, dus graag even investeren in een schonere auto.

      Ik heb er met name moeite mee als het argument is “zo werken we al 20 jaar”. Want volgens dat argument kun je nooit iets veranderen, iedere juridische vernieuwing heeft immers negatieve impact op bedrijfsprocessen. In 2007 moest je ineens opt-in vragen voor je zakelijke nieuwsbrief, daar ging je als bedrijf dat b2b e-mailadressen harvestte op basis van opt-out.

      Een opzet waarbij systeem A de voorspelling doet en B deze toetst of verklaart, is natuurlijk prima. De wet eist niet dat een systeem zichzelf verklaart, maar eist een adequate verklaring bij een voorspelling. Dus helemaal goed om die achteraf terug te rekenen, wellicht is dat ook sowieso verstandiger omdat je dan inconsistenties of afwijkingen kunt opsporen. Twee weten meer dan één.

      Je laatste risico vind ik erg interessant. Als je dat systematisch kunt én kunt verhullen dat het daarom gaat, dan heb je een heel knap systeem opgetuigd. Maar één tegenvoorbeeld van in dit geval een witte meneer uit de Bijlmer zou je dan een gigantisch probleem opleveren. Denk je echt dat zoiets te realiseren is?

    • Zo vergezocht is je voorbeeld niet. In de jaren 90 was het in delen van de Bijlmer onmogelijk om jouw auto All Risk te verzekeren, alleen WA werd aangeboden. Dit had alles te maken met de criminaliteit in de buurt en de grote hoeveelheden auto diefstallen en inbraken. Het trof zoals jij constateert voornamelijk zwarte personen.

      Als je in je trainingsdata huidskleur opneemt is er grote kans dat je model leert dat zwart = computer says no! Neem je dat niet mee, dan zal je model dat niet kunnen leren. Maar het feit dat je model dan veel gekleurde mensen weigert is geen ongeoorloofde discriminatie.

  8. Is het fundamenteel onaanvaardbaar om te zeggen, AI systemen moeten uitlegbaar zijn?

    Nee, dit is wensbaar, en ik denk dat Europa hier voorop loopt (en ik ben daar best trots op). Zelf vaak last gehad van: “computer says No!” en daarom: “but why?” beantwoorden. Ik denk wel dat als je zegt: “uitlegbaarheid werkt alleen voor een beslisboom of logistic regression”, dat dan een gehele industrie flink in de problemen komt. Voor gestructureerde data is Gradient Boosted Decision Trees de state-of-the-art. GBDT wordt traditioneel gezien als een zwarte box model (een gewogen verzameling van duizenden beslisbomen). Als je dan met een kredietmodel van GBDT naar een beslisboom gaat, dan zal je accuraatheid daar flink onder leiden. Bedrijven kunnen op deze manier echt failliet gaan. Computer Vision zonder deep neural nets is echt een stap terug naar de stoommachine.

    Ik heb er met name moeite mee als het argument is “zo werken we al 20 jaar”.

    Kan ik in meegaan. Desondanks zal de schade (innovatie, accuraatheid, etc.) enorm zijn.

    wellicht is dat ook sowieso verstandiger omdat je dan inconsistenties of afwijkingen kunt opsporen.

    Juist. In mijn onderzoek ligt de focus op dit voordeel. Ik moet mijn model ook verkopen aan de uiteindelijke beslissingsmakers, en die zitten, net als consumenten, niet te wachten op een complete black box. Bovendien is een foutje snel gemaakt (bias is inherent soms, en onverkoombaar, maar als je ervan op de hoogte bent kun je in ieder geval je verwachtingen bijstellen). Mijn ervaringen leren mij dat machine learning modellen bias formeel en officieel maken. Als een engineer een brug bouwt en deze stort in, dan is de engineer persoonlijk aansprakelijk. Als ik een ML model maak en deze blijkt te discrimineren, dan krijg ik loonsverhoging: Het model werkt beter door te discrimineren en dat is waar de industrie uiteindelijk het meeste om geeft.

    Denk je echt dat zoiets te realiseren is?

    Ja. De menselijke variant hiervan zijn politici die een wet doorvoeren, met de misleidende uitleg dat het goed is tegen X, terwijl ze eigenlijk geld krijgen van Y.

    Met dezelfde methodiek om bias op te sporen (en proberen te vermijden), kun je bias verhullen in andere, onschuldig ogende, variabelen. Dit gebied is nog zo jong (2008 is de eerste paper geschreven over discriminatie in gesupervised leren) dat veel werk van experimentele aard is. Als ik mijn onderzoek in deze openbaar dan zal dit zijn om te laten zien dat men slecht kan doen (responsible disclosure).

    Oorspronkelijk dacht men dat simpelweg vermijden van gevoelige variabelen het probleem zou oplossen. “Oh, we mogen niet naar geslacht kijken? Dan verwijderen we die kolom gewoon”. Zogenaamde redundante encoderingen bevatten informatie over geslacht. Heb je bijvoorbeeld: Baan en inkomen, en is dit “zuster” en “laag-modaal” dan weet je het wel. Je hebt dus informatie over de beschermde variabele nodig, om discriminatie te vermijden. Dit is een heikel punt: Je kunt moeilijk vragen of iemand zwart is (zodat je de beslisschaal bij kan stellen om een zwart persoon evenveel kans te geven als een wit persoon op een lening), maar zonder te weten dat postcode 5511 voor 95% uit Antilianen bestaat, gebruik je zo’n locatie variabele zonder gewetensvroeging: onbewuste discriminatie heeft uiteindelijk hetzelfde resultaat. Mogelijk kunnen vorderingen in differentiele privacy hier uitkomst bieden (ik heb voldoende informatie over ras tijdens het trainen van mijn model, maar kan zelf niet zeggen wie zwart of wit is.)

    Ik denk dat dit deels marktwerking is. Je zag hetzelfde met cookie-muren-moeheid: men leest niet eens meer waar de cookies voor gebruikt worden, en we zijn weer terug bij het oude.

    • Met het voorbeeld van spam e-mail: Je vormt je sales message op zo’n manier dat een spam filter het niet als spam classificeert. “Oh, als ik .cn links plaats dan wordt m’n mail geblokt, dus maak ik er .nl’s van”. Het blijft spam, maar de verpakking is anders.

      Zeg: Je instrueert stiekem mensen om zwarte mensen met armoedige kleding te labelen als 1, en de rest als 0. Dan train je een stevig model A op 20 onschuldige variabelen met deze labels. Je hebt nu een model dat voorspelt of, aan de hand van 20 (meer of minder) toegestane variabelen, iemand zwart is en onderklasse, door te kijken naar zeer complexe interacties. Nu train je een ingewikkeld ander model B met de voorspelling van model A als variabele (in combinatie met nette variabelen die compleet door de beugel kunnen). En je uitleg komt van model C, wiens voorspelling moet overeenkomen met model B, maar alleen geen gebruik mag maken van model A’s voorspelling variabele. “Is it because I’m black?” Nee dus. Het blijkt ja.

      • Ja, via een model A (op een deelverzameling van de variabelen) kun je een verborgen variabele model B binnen brengen. Dat moet heel subtiel kunnen via een “outlier filter”[*] op de trainingsdata van model B. In dat geval heb je geen systeem C nodig.

        [*] Het officiele idee achter een outlier filter is dat je meetdata verbetert door metingen waarin je fouten door storingen vermoedt wegfiltert, bijvoorbeeld een herkenbare factor 10 door een data-invoerfout. Zo’n filter kan gebruikt worden door alleen vooroordeel-bevestigende trainingsdata te selecteren voor je model; maar dan kun je botweg de discriminerende variabele illegaal gebruiken.

        • Oei, deze is link (en slim)! Gewoon niet leren van data die niet overeenkomt met je bias… zeer moeilijk op te sporen bias augmentation. Precies omdat data van minorities vaak schaars is (en het model daarom al niet confident is). En je kan bedrijven lastig verplichten om te leren van meer data. Diverse, representatieve leer data sets zijn (nog) niet verplicht.

    • Dat is wel een terecht punt. Ik vraag me af of dat echt wel goed te camoufleren blijft op de lange termijn. Een keer of wat kun je natuurlijk met een onzinverhaal wegkomen (“nee dat mijn broer er directeur is heeft niets te maken met dat men de aanbesteding won”) maar op zeker moment gaat dat opvallen toch? En zeker als je met algoritmes werkt die gaan uitrekenen wat de doorslag gaf, die komen toch op zeker moment in de knel en gaan zichzelf tegenspreken?

      • De politie (tenminste in de US) zal nooit een uitleg geven bij een politiestop: “U bent zwart en rijdt in een dikke BMW, dit vond ik verdacht.”, ze zeggen: “Weet u wel dat u minstens 30 cm over de streep reed 2 kilometer terug? Ik kom even controleren of er niet gedronken is.”. Alleen bij aggregaat kunnen bestuurders hierachter komen (op Youtube filmpjes uploaden en zien dat zwarte mensen voor de meest pietluttige dingen worden gestopt). En regulators kunnen er achterkomen als ze het ras van de bestuurders weten, maar geen agent schrijft “zwart persoon” in het proces verbaal, dus dat moet ook met jaarlijkse statistieken.

        Alleen als je weet als regulator “deze rijen horen bij zwarte mensen, deze rijen horen bij witte mensen”, dan kun je met zekerheid zeggen: “hier is iets vreemds aan de hand, zwarte mensen worden constant anders beoordeeld dan witte mensen.”, of als iedereen zijn uitleg deelt met andere mensen. En dan alleen ook nog maar in de marge (op de rand van “ja”, “nee”): Als twee modelen met en zonder discriminerende variabelen dezelfde confidente beslissing nemen, dan maakt die paar procent meer accuraatheid daar niets uit (en gebruik je natuurlijk het model zonder discriminerende variabelen voor de uitleg).

        Maar er is sprake van informatie a-symetrie: Jij hebt alleen toegang tot jouw uitleg, de regulator heeft geen 100% inzage in code als deze het model niet zelf draait. Alleen de modelenmaker heeft het volledige plaatje en kan dit op meerdere manieren uitleggen. Tegenspraak alleen als twee mensen verschillend behandeld worden met precies dezelfde uitleg: Maar wie vraagt om een uitleg als zhij gewoon een lening krijgt?

Laat een reactie achter

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren en <em> en <strong> voor italics en vet.

Volg de reacties per RSS