Kun je een algoritme wel racistisch noemen?

| AE 12229 | Informatiemaatschappij | 84 reacties

Twitter lijkt witte mensen op foto’s eerder uit te lichten dan zwarte mensen, bleek deze week uit tests van gebruikers. Dat meldde Nu.nl onlangs. Het gaat om een experiment van Tony Arcieri, die ontdekte dat Twitter inzoomt op grote afbeeldingen en daarbij witte gezichten de voorkeur geeft, zoals hier naast kort te zien is. Dat sloot mooi aan op andere bevindingen, zoals dat Zoom bij het vervangen van de schermachtergrond gekleurde gezichten niet herkent, of in het verleden dat een gekleurde vinger door sensoren niet herkend wordt zodat je een droogblazer niet kunt activeren. En dan lees ik dus dat “algoritmes niet racistisch zijn”, wat ik een beetje gezocht-juridisch vind.

Het argument is dan natuurlijk dat een algoritme gewoon doet wat het gezegd is, en daarbij niet nadenkt en al helemaal geen intenties heeft. Net zo min als een deur kan discrimineren, kan een algoritme dat, even gechargeerd. Een deur kan open en dicht, en het zijn mensen die bepalen wanneer dat gebeurt. Die kunnen daarbij discriminerende criteria hanteren, die de deur dan uitvoert, maar dat maakt de deur niet zélf een racist.

Ehm, ja. Ik snap de noodzaak voor die discussie niet zo, want volgens mij is het wel algemeen duidelijk dat algoritmes niet kunnen denken. Maar “mensen die het Twitter-gezichtsherkenningsalgoritme hebben gebouwd, hebben daarbij racistische keuzes gemaakt” is gewoon onhandig veel langer, waarom zou je dat in vredesnaam op willen schrijven?

Een iets diepere zorg is dat er kennelijk een groep mensen is die denkt dat een algoritme per definitie niet discriminerend kan zijn. In die visie drijft een algoritme op feiten, namelijk wat het uit de data geconcludeerd heeft. En omdat data objectief is, en het algoritme niets meer doet dan objectief feiten analyseren en daaruit conclusies trekken, is de uitkomst van zo’n algoritme dus onmogelijk discriminerend te noemen. Twee plus twee is gewoon vier, ook voor waarden van twee die gelijk zijn aan een 80.000 x 80.000 matrix met informatie uit afbeeldingen.

Dat laatste is wat mij betreft écht onzin. Dat een computer iets doet, maakt het nog niet objectief. Zeker niet wanneer het algoritme drijft op een dataset waarvan allerminst is vastgesteld dat deze representatief is voor het gehele probleemgebied. Als je dataset alleen witte mannen bevat, en je laat de gehele bevolking werken met het daaruit verkregen algoritme, dan is die uitkomst niet objectief. Ik wil best geloven dat er geen intentie was om andersoortige mensen buiten te sluiten, achter te stellen of op andere wijze negatief te benaderen. Maar de uitkomst komt daar desondanks wel op neer. En juridisch gezien noemen we dat nog steeds discriminatie; intentie is niet van belang, alleen de uitkomst in de praktijk.

Uit het Nu.nl artikel:

Media spraken van “racistische algoritmes”, maar met dat label moeten we oppassen, zegt neuro-informaticus Sennay Ghebreab van de Universiteit van Amsterdam. “Effecten kunnen discriminerend zijn. Het probleem met refereren aan algoritmes die racistisch zijn, is dat je het probleem van de maatschappij naar het algoritme verschuift.”
Dit voelt voor mij als een totale drogreden. Er is niets mis met het algoritme, de maatschappij is fout dus wilt u even de maatschappij corrigeren zodat ik het algoritme met rust kan laten. Dat kan niet de bedoeling zijn, lijkt me zo. Helemaal omdat in de praktijk het zelden gaat om een diepgaand moeilijk te zien probleem dat pas door zo’n AI algoritme blootgelegd wordt: de datasets die men gebruikt, bevatten gewoon te weinig diversiteit in hun afbeeldingen. Dat is een zeer bekend probleem, en iets dat je dus gewoon moet fixen voordat je algoritmes gaat trainen op zulke datasets.

Ik blijf er bij: het gaat niet om de algoritmes, het gaat om de dataset.

Arnoud

 

Deel dit artikel

  1. Het zou natuurlijjk ook zo kunnen zijn dat er gewoon technische verschillen zijn tussen huidskleuren op afbeeldingen, waardoor lichter getinte huidskleuren eerder worden opgepikt. Hogere contrasten bijvoorbeeld, meer schaduwwerking, noem maar op.

    Dat is net zo slecht, maar het verschil is dat in dat geval de fout van de ontwikkelaars is: “Te weinig getest op donkerder getinte huidskleuren”. Anders hadden ze dit al opgemerkt voor ze hun algoritme de wijde wereld in schoppen.

    • In de jou beschreven situatie zijn er twee toestanden waar de een dan wel de andere groep nadelen ondervind. Volgens Arnoud is er dan sprake van racisme. Wat me dan zeer verbaast is dat dan gangbare escalatie is van racisme en discriminatie is als er op dat moment donkere mensen het nadeel hebben maar er wordt luchtig overheen gesprongen als het nadeel bij licht gekleurde mensen is. Dat lijkt me een overduidelijk geval van institutioneel racisme. Dat lijkt me lastig voor Arnoud om daarin objectief te blijven.

  2. Als je waarheid je lief is dan doet het er toe wat je zegt. Dat het langdradig is om je correct uit te drukken betekent niet dat het daarom oké is om iets te zeggen dat korter is én niet klopt.

    Ik zag op de TV een mevrouw die vond dat we te snel grijpen naar de term racisme en vond dat we het vaker zouden moeten hebben over discriminatie. Racisme drijft op het idee dat bepaalde rassen beter zijn dan andere rassen, terwijl je bij discriminatie wel onderscheid maakt -bijvoorbeeld op ras- maar daarmee niet zegt dat een bepaald ras iets niet of minder goed kan. Dat twitter blanke mensen eerder toont dan gekleurde mensen hoeft alleen daarom al niet racistisch te zijn.

    Een algoritme kan niet racistisch zijn, omdat dit impliceert dat racismeleer in het algoritme ingebakken zit. Daarvan is uiteraard geen sprake. Een algoritme kan hooguit discriminator zijn. Maar het is ook mogelijk dat een algoritme discriminerende keuzes maakt zonder dat er iets discriminaties in de code terug te vinden is. Een neurologisch netwerk is een voorbeeld van een algoritme waarbij de uitkomst wel kan discrimineren, maar het algoritme zelf niet decimerend is. Bij een dergelijk algoritme is het niet het algoritme maar de dataset waar iets aan mankeert. Als je zegt dat het algoritme discriminerend is, terwijl het de dataset is dan ga je op de verkeerde plek kijken en kun je het niet oplossen.

    • Voor mij is “het algoritme” het samenstel van de redeneerlogica en de dataset, want het algoritme is hetgene dat de input (jij als persoon) neemt en daar een uitspraak of conclusie aan doet. Ik vind dat je dan best kort mag zeggen dat het algoritme racistisch is, wanneer je een situatie hebt dat het algoritme een onderscheid gebaseerd op ras doet. (Het is juridisch niet zo dat het pas racisme is als het onderscheid op superioriteit/inferioriteit gebaseerd is.)

      Concreet voorbeeld: een gezichtsherkenning-systeem voor toegangscontrole dat niet werkt met negroïde gezichten noem ik een racistisch systeem, omdat het onderscheid naar ras maakt (alleen Caucasiërs mogen naar binnen) terwijl dat totaal irrelevant is (je moet naar binnen mogen als je lijkt op je foto). Dat systeem mag niet in productie zijn, en het maakt me niet uit of de bug zit in een incomplete dataset, een sensor die te lichtgevoelig is of een algoritmische keuze hoe om te gaan met de data. Ik zie niet hoe dat “kijken op de verkeerde plek is”, dat systeem is verwerpelijk zoals het in gebruik is.

      • Met alle respect Arnoud, maar volgens mij begrijp je de kritiek niet helemaal. Discrimineren is het handelen, het label racisme impliceert dat er een bepaalde overtuiging of intentie achter die discriminatie moet zitten. Het idee dat een algoritme een intentie kan hebben is naar jouw eigen zeggen al onjuist, waardoor als enige een verwijt resteert naar de ontwikkelaars.

        Maar hoeveel ontwikkelaars programmeren met racistische intenties of hebben lak aan bepaalde rassen vanuit die overtuiging? Sinds wanneer gaan we zo gemakszuchtig om met zulke ernstige verwijten? En sinds wanneer is het OK om alleen op basis van de uitkomst dat soort conclusies te trekken, al helemaal voor juristen die meer waarde zouden moeten hechten aan de onschuldpresumptie?

        Om bij jouw argument te blijven, er zullen vast ontwikkelaars zijn die discriminerend of lichtzinnig zijn omgegaan met de selectie van datasets. Die wellicht bepaalde aannames hebben laten doorschemeren in hun keuzes, of die van de maatschappij klakkeloos hebben overgenomen. Maar het punt dat gemaakt wordt is dat racisme daar in veel gevallen niet het juiste label voor is, al helemaal niet voor het algoritme. Voor iemand die zelf regelmatig in een tirade schiet over onjuist gebruik van terminologie wanneer het binnen jouw domein is vindt ik dat je een stuk gevoeliger mag zijn voor de nuancering van correct taalgebruik.

        • Discriminatie en racisme vereisen géén intentie. Dat je geheel onschuldig en zonder enige negatieve bedoeling mensen uitsluit, mag niet. Ik snap dat het vervelend is om te horen als jij denkt, ik heb mooie gezichtsherkenning gebouwd en je krijgt te horen “deze is racistisch” maar dat is dan wel wat je gezichtsherkenningsysteem is.

          Volgens mij is dit al zo sinds we wetgeving over discriminatie (waar racisme een species van is) hebben ingevoerd. Bewijzen van intentie is super ingewikkeld, en bovendien niet relevant: als een werkgever geheel te goeder trouw meent dat vrouwen niet geschikt zijn voor zijn werk, dan discrimineert die naar sekse en moet hij daarmee ophouden. Het is onjuist dat het pas discriminatie is als hij in zijn policy zegt, ik vind dat vrouwen bij het aanrecht moeten blijven of zo.

          (Als hij zou zeggen, ik werk met röntgenstraling en zwangere vrouwen lopen dan gevaar, dan is dat een ander verhaal. Maar dan focus je op een objectief feit dat een rechtvaardiging geeft. Daar heb ik het hier even niet over.)

          • Nee, racisme is nu juist geen specifieks van discriminatie. Bij racisme wordt gediscrimineerd op ras, maar gaat veel meer achter schuil. Racisme is veel kwalijker dan discriminatie op ras. Dat jij van anderen hoort dat iets racistisch zou zijn, anderen die het kennelijk ook niet zou nauw nemen met wat racisme werkelijk is, maakt niet dat racisme juridisch gezien het zelfde zou zijn als discriminatie op ras. Overigens, ik beweerde niet dat het pas discriminatie zou zou als je dat in een policy zegt, ik beweerde dat het discriminatie was, tenzij je een overtuiging kan aantonen en dan pas is het racisme. En ja, dat is ingewikkeld, maar dat het ingewikkeld is is geen reden om het niet te hoeven doen.

          • Discriminatie an sich is niet per definitie verboden, het is wel degelijk de intentie die het verschil maakt. Zo heb je positieve discriminatie ter bevordering van minderheden in bepaalde posities en is zoals je zegt uitsluiting op objectieve gronden gewoon toegestaan. Racisme daarentegen is een aspect van discriminatie dat per definitie onrechtmatig is omdat het onderscheidt op grond van ras of huidskleur. Met andere woorden moet voor racisme ras de oorzaak, niet enkel het gevolg zijn.

            Om het in juridische termen te stellen: we onderscheiden directe en indirecte discriminatie voor een reden. Ik stel dat het algoritme niet onderscheidt op basis van ras of huidskleur, daartoe is het niet werkelijk in staat. Hier is sprake van indirecte discriminatie door de ontwikkelaars en het moet ook als zodanig worden besproken, waarbij een geladen en ongenuanceerd label als ‘racisme’ vaak misplaatst zal zijn.

            • Wat ik bedoelde, is dat jij geen kwáde intentie hoeft te hebben. Ook als je geen enkele white supremacy opvatting in je hoofd hebt, en je bedrijf zo divers is als het maar kan, dan nog ben je bezig met discriminatie als je gezichtsherkenning negroïde gezichten structureel niet herkent. Je zet een systeem neer dat onderscheid maakt op basis van huidskleur (=etnische afkomst).

              • Hoe zit dit als, om het voorbeeld van een toegangs-systeem aan te halen, de oorzaak van het maken van onderscheid zit in puur technische redenen? Dus laten we aannemen dat de dataset voor 50% uit witte en 50% uit zwarte gezichten bestond, maar door omstandigheden is het lastiger om zwarte gezichten te herkennen als het donker is, en lastiger om witte gezichten te herkennen als de zon net opkomt en recht in de camera schijnt. Is het dat racisme omdat ’s avonds donkere mensen niet naar binnen mogen, en ’s ochtends witte mensen niet? Mag je zo’n systeem niet plaatsen dan? Als het werkte in het labaratorium, maar nu in de praktijk niet, moet je het dan weghalen? Ben je racistisch bezig als je zegt “als je donker van huidskleur bent en je moet ’s nachts naar binnen, moet je voor de zekerheid ook de fysieke sleutel maar meenemen”? Ik vind het zo..zwaar, zo onheus, om mensen, systemen, programmeurs etc te betichten van racisme als er geen intentie achter de mogelijke verschillen zit, ongeacht wat misschien de juridische definitie van zo’n term is.

              • Het punt is dat het systeem dat je neerzet vaak zelf geen onderscheid maakt op basis van huidskleur, dat is slechts een bijkomstigheid van programmering die daar helemaal niet op ziet (=indirecte discriminatie). Er is echt een wezenlijk verschil tussen zeggen dat een systeem discriminatie op basis van huidskleur tot gevolg heeft of zeggen dat een algoritme zelf racistisch is.

                Aangezien de hele vraag nou juist is of nuancering van het label racisme voor algoritmes gepast is vindt ik dat je dat toch moet ingaan op het feit dat het label niet volledig recht doet aan de nuanceringen van de werkelijkheid. Vooral omdat je het net zo correct je iets zorgvuldiger kan formuleren kom je wat mij betreft niet weg met het feit dat je het technisch gezien zo kunt noemen.

              • Ik heb zowel bezwaar tegen het onjuist gebruik van het woord algoritme in een onduidelijke context als het woord discriminatie voor wat door een groep als ongewenst resultaat gezien wordt.

                Een eenvoudige berekening, bestelling heeft als een van de algoritmes input validatie. Het resultaat van de inputvalidatie discrimineert / scheiding/ gevallen in: – volledig en goed – onvolledig – onwaarschijnlijke waardes Dat is volledig objectief, niet racistisch of discriminerend in het gangbare spraakgebruik. Door onderliggende kan het wel zijn dat in individuele gevallen personen zich racistisch gediscrimineerd voelen. Gevoel is geen objectieve maat dan wel objectief gegeven.

                • Ik heb zelf ook vreselijk veel moeite met het woord algoritme bij dit soort toepassingen, net zoals ik nooit hacker zeg als men een computerkraker of scriptkiddie bedoelt. Helaas zul je in de kranten alleen ‘hacker’ lezen bij computervredebreuk of datavernieling, en ‘algoritme’ wanneer men bedoelt dat een op zekere dataset getraind ML-algoritme een correlatie tot conclusie verheft. Wil je dan dat publiek bereiken, dan moet je hun terminologie gebruiken.

                  Ik erken dat er geen intentie in zit, maar nogmaals discriminatie speelt ook als er géén intentie achter zit. Het gaat om het effect op het slachtoffer. Als jij geheel per ongeluk over mijn voet rijdt, en je had nul intentie mij pijn te doen, dan handel je desondanks onrechtmatig. Ik heb schade. Hier is de schade dan immaterieel maar het principe is hetzelfde.

                  (Ik had ooit een Chrome extensie die “artificial intelligence” en “big data” verandert in “giant excel sheet”, dat was erg rustgevend.)

                  • Nu wordt hij denk interessant. je noemt een ML algoritme en legt meteen een verband naar deep learning, herkennen van plaatjes en beelden. Met die specifieke situatie moeten we denk eerst terug naar wat het feitelijke doel ooit geweest is en wat nog steeds het doel zou zijn.

                    Eenvoudige proces machine learning met een aantal controleerbare gegevens en een gewenst doel is makkelijker te doorgronden uit te leggen en daar gaat het ook al vaak mis door niet naar het proces zelf te kijken. Afwijkende situaties worden snel op de hoop van racisme en discriminatie gegooid terwijl de onderliggende verklaring daar goed buiten kan staan. (bijvoorbeeld rijkdom, immigratie of wat dan ook). Vervolgens dikke koppen in de media dat de computer het allemaal fout zou doen.

                    Als we naar wetgeving kijken en dan het moment waar er bedragen bij komen, dan is het zeer opvallend dat er met ronde bedragen begonnen wordt en er vervolgens met jaarlijkse rente aanpassingen kleine bedrage bijkomen. Dat betekent (Benford) dat er iets vreemds met de onderbouwing van die bedragen is. Met ML zou je de beslissing anders doen, vanuit een doel komt er als het goed is een beter onderbouwde waarde uit. Weersvoorspellingen zijn modellen met algoritmes, deze zijn steeds meer betrouwbaarder en bruikbaarder geworden.

                    Als me de nieuwe technologie nuttig en begrijpelijk inzetten (de processen met doelen begrijpen) dan boeken we echt vooruitgang. Er is nog veel te doen voor dat het duidelijker wordt en meer draagvlak krijgt.

                    • Het probleem is in mijn ervaring vaak juist dat het systeem een verboden groepskenmerk neemt als proxy voor wat er werkelijk aan de hand is. Inderdaad optimaliseert het systeem dan voor bijvoorbeeld armoede of lage kans om schuld af te lossen, maar het ziet een stevige correlatie met huidskleur of etnische afkomst en doet dan op basis daarvan de uitspraak.

                      Natuurlijk zitten daar historische verklaringen aan vast, en die correlatie is er dan ook echt, maar dat maakt het niet acceptabel.

                      • Of misschien ziet het systeem wel op een heel andere manier die armoede en lage kans om een schuld af te lossen, en is de huidskleur op geen enkele manier in het hele systeem gebruikt. Alleen is het eindresultaat dat mensen met een bepaalde huidskleur er vaker worden uitgepikt juist omdat die correlatie er is. Maar de huidskleur is dus niet de reden dat ze er uitgepikt worden! Hoe kun je dan nog claimen dat het systeem discrimineert op huidskleur?

                        Sterker nog, als er daadwerkelijk die correlatie is, en je programmeert het systeem zo dat het mensen er uit pikt naar proportie van huidskleur, dan kan het best zo zijn dat je dus een soort ‘anti’ factor moet inbouwen, zeg maar een factor ‘heeft persoon X huidskleur Y, dan geeft dat gewicht Z in de richting van ‘goed’, en dan ben je dat systeem dus juist op huidskleur aan het laten discrimineren!

                      • Hier hoopte ik op, je noemt een verboden groepskenmerk wat in de features zit en wat voor het snelle resultaat meegenomen wordt en zo de makkelijke beschikbare tools ingegooid wordt. Het oude paradigma rubbish in rubbish out ook als is het met hypermoderne tools volgens de state of art.

                        Je zou eerst zo veel mogelijk aan data minimalisatie en daaruit een onderbouwd controleerbaar synthetische basisgegeven moeten opbouwen. Het is iets wat ik nog niet zie. Heb je op die manier een aantal onderbouwde basisgegevens dan blijft er nog veel achter waar je aan moet denken. Bepaalde wijken hebben nu eenmaal bepaalde bewonersgroepen. Roosendaal en Oosterbeek bij Arnhem is heel anders dan Charlois Rotterdam. Als je kijkt zie je dat ook de huidskleur anders is etc. Als je nu een systeem wilt waar je moet controleren op fraude met bijstand dan zal dat in een bepaalde hoek uitkomen. Als je financieel witwassen zoekt kom je heel anders uit. De correlatie zal er zijn maar ik zie geen discriminatie op huidskleur.

                        Je opmerking van andersom discrimineren dat mensen met een huidskleur er uit gehouden worden (wegens de vele problemen in media) geeft die andere nare schaduwkant waar de polarisatie opspeelt.

              • Als je een systeem bedenkt dat mensen op ras uiterlijk uitsluit dan is het niet toegestane discrminatie en mogelijk racisme (huidskleur ras). Aan positieve discriminatie is niets positiefs het is de afglijdende argumentatie om iets wat fout is goed te lasten lijken. Wil je alleen een negroide vrouw aannamen voor de diversiteitsprijs dan wel het bereiken van een afspiegeling van de nederlandse bevolking dan is dat gewoon fout.

                Het bij voorbaat aannemen van een oorzaak dat het aan de ras huidskleur zou liggen ligt in dat verlengde. Wat te denken van een aparte ingang voor te grote / dikke mensen omdat het poortje op gemiddelde maten is gemaakt. De deur voor gemiddelde grootte van mensen etc.

        • Ik geloof dat de manier waarop de term racisme wordt gebruikt is veranderd. Ik (55) heb vroeger inderdaad geleerd dat racisme de overtuiging is dat het ene ras inherent superieur is aan het andere en discriminatie op basis van die overtuiging. Tegenwoordig zijn er veel mensen die alle discriminatie op basis van ras racisme noemen.

          Ook het gebruik van de term discriminatie is veranderd, naar mijn idee. Vroeger was dat het bewust voortrekken van de ene groep voor de andere op basis van oneigenlijke criteria. Tegenwoordig wordt, zoals Arnoud schrijft, iets al discriminatie gemoend als de uitkomst benadeling voor een bepaalde groep is, ongeacht of daar een bewuste intentie aan te pas komt.

          Racisme en discriminatie vereisten dus niet alleen intentie, ze waren zelfs die intentie. Dat is nu blijkbaar niet meer zo.

          Het is vermoeiend dat je over deze dingen niet fatsoenlijk van gedachten kunt wisselen omdat verschillende mensen verschillende dingen bedoelen met dezelfde woorden. In de wiskunde wordt dat opgelost door de definitie van de gebruikte termen er voor de zekerheid expliciet bij te geven. Ook in de rechten wordt nogal eens met definities gewerkt. Maar wij leken moeten maar geacht worden elkaar zomaar te begrijpen zonder een verklarend woordenboek erbij waar iedereen zich in kan vinden. We kunnen Van Dale als maatstaf nemen, maar de definities daar kloppen vaak niet met hoe woorden daadwerkelijk gebruikt worden. Ook Wikipedia heeft het naar mijn idee niet altijd goed.

      • Ik vraag me dus ernstig af of het juridisch wel racisme is, zoals jij zegt. Als ik zoek op racisme en strafrecht dan kom ik uit op art. 137c Sr maar dat het discriminatie verbod. En waarom zou de wetgever racisme definiëren als discriminatie op ras? Dat heeft geen toegevoegde waarde. Daarmee verwaterd ook het begrip racisme. Het erge aan racisme is dat daar het idee achter zit dat een andere groep minderwaardig is.

        Een algoritme is niets meer als een reeks van instructies, met als doel om een bepaald probleem op te lossen. Het Dijkstra algoritme waarmee, je de kortste route kunt vinden, bevat ook niet de dataset. Voor de communicatie met anderen is het nodig dat we allemaal het zelfde verstaan onder wat een algoritme is.

        https://nl.wikipedia.org/wiki/Racisme
        https://en.wikipedia.org/wiki/Algorithm
        https://en.wikipedia.org/wiki/Dijkstra%27s_algorithm

        • Racisme is de vakterm voor discriminatie op ras, je hebt gelijk dat dit niet letterlijk in de wet staat omdat dat niet hoeft. Ik ben me bewust van de oorspronkelijke connotatie van racisme maar dat betekent niet dat enkel en uitsluitend discriminatie vanuit de minderwaardigheidsopvatting strafbaar is. Sommigen spreken in dat verband van “naïef racisme”.

          • Ik raak nu toch een beetje geïrriteerd. Jij beweer dat het juridisch racisme zou zijn, ik kom met bronnen en in plaats van toegeven dat je er naast zit begin je over discriminatie. Ik heb nooit beweerd dat het geen discriminatie zou zijn of dat dit onder die vlag niet strafbaar zou zijn. In tegendeel, mijn stelling is dat we dit geen racisme maar discriminatie zouden moeten noemen. Ik zie niet in wat daar zo problematisch aan is.

            Op die zelfde manier ga je heel losjes om met wat een algoritme is.

            • Vervelend dat je geïrriteerd raakt door mijn reactie, dat was niet mijn bedoeling. Ik heb volgens mij aangegeven dat racisme inderdaad geen juridische term is maar dat ik het zie als acceptabele shorthand voor het juridisch vergrijp “discriminatie op ras”. Ik begrijp dat jij dat laatste anders ziet, ik weet niet hoe daarop te reageren.

              Mijn stelling is dus dat je prima kunt en mag zeggen dat een algoritme racistisch is, ook als het feitelijk de dataset is die het algoritme voedt en ook als de ontwerper van een en ander niet de intentie had om onderscheid op ras te maken. Allereerst dus omdat het probleem hoe dan ook in het systeem zit en het algoritme daar het in het oog springende deel van is*. Ten tweede omdat bij racisme zoals juristen dat bedoelen (namelijk discriminatie op ras/etnische afkomst) de intentie niet relevant is.

              *Ik weet dat bij machine learning de data belangrijker is dan het algoritme dat daarmee rekent. In het dagelijks spraakgebruik spreken we desondanks van algoritmes die uitkomsten nemen.

              • Het lijkt mij dat jullie hier goed op weg zijn om de oorzaak van het grote aantal reacties die dit soort topics met zich meebrengt naar boven te brengen. Ik moet zeggen dat ik ‘racisme’ ook altijd zo begrepen heb als Alex, en niet zoals Arnoud.

                Voor mij is ‘discriminatie op ras’ een gevolg van het gedachtengoed ‘racisme’, maar kan discriminatie op ras net zo goed allerlei onbedoelde, en zelfs volledig toevallige, oorzaken hebben. Als je dan gewone, onschuldige burgers (ontwikkelaars & gebruikers van het algoritme) gaat beschuldigen van het gedachtengoed ‘racisme’ krijg je natuurlijk hefitge reacties.

                • Dat is natuurlijk waar, en ik ben me ervan bewust dat het bepaald niet leuk is om te horen dat je een racist bent terwijl je naar eer en geweten gewoon fijn aan het bouwen bent aan iets nuttigs voor de maatschappij. Ik denk dat dit dezelfde soort reactie is als wat gebeurt in de Zwrte Pit discussie.

                  Ik denk wel dat er iets moet gebeuren, want ik zie het zó vaak dat algoritmes of systemen ongewenste effecten hebben die ik dan discriminerend noem. Dat blijft jaren hangen, mensen hebben daar lást van en het lijkt of er dan geen oplossing komt.

                  • Ik ben het met anderen eens, dat in mijn beleving een racist en iets/iemand die discrimineert op ras twee verschillende zaken zijn. Ik kan me zelfs een overtuigd racist voorstellen (m.b.t. denkbeelden), die dat niet in daden omzet en niet discrimineert op ras. De denkbeelden zijn misschien dubieus, maar afrekening zou op de daden moeten plaatsvinden. Door de twee termen zo losjes door elkaar te gebruiken stigmatiseer je mensen en bereik je het tegenovergestelde van wat je wilt bereiken. In plaats van dat de reactie is “oh, wat vervelend dat mijn algortime discrimineert, dat heb ik nooit zo bedoeld, dat gaan we aanpassen”, dwing je mensen stelling te nemen tegen het label racist dat je op ze plakt. Je komt dan in een discussie terecht, waarin de emoties hoog kunnen oplopen en waar je niet meer samen uitkomt.

  3. We weten dat mensenrassen andere kenmerken hebben ook de lichaamslengte en omvang is daarbij verschillend. Een bepaalde voorkeur in materiaal en kleuren zal een hoge correlatie hebben. Een kledingwinkel verkoopt kleding in bepaalde maten en voor een bepaalde doelgroep. Het algoritme wat een kledingzaak verkoopt en waarvoor ze inkopen is daarop afgestemd. Nu is niet elke maat en materiaal en kleur in elke precies gelijk verdeeld. Is er nu sprake van racisme? De oplossing hiervoor zou zijn en enkel uniforme kleding in een enkele eenheidsmaat. Dat omdat de maatschappij fout is omdat er verschillen tussen mensen zijn? Linkshandigen sluiten we vast uit, mensen onder 1m60 en boven de 2m00 ook. Iedereen moet exact voldoen en de opgemeten gemiddelde waardes voor iets.

    Het iedereen moet gelijk zijn en zich ook exact gelijk tonen lijkt me een drogreden. Zodra er verschillen zijn (gelukkig maar) zul je ook verschil in hulpmiddelen en diensten hebben. Wat is daar het probleem mee?

    • Niemand zegt dan ook dat “iedereen moet gelijk zijn en zich exact gelijk tonen”. Het gaat er juist om dat mensen dat niét hoeven, dat een algoritme rekening houdt met unieke eigenschappen en groepskenmerken zo veel mogelijk negeert. Het probleem is dat algoritmes vaak kenmerken negeren omdat die niet in de trainingsdata zitten (er is alleen getraind op mannen van 1.70 tot 2.05 met een gewoon slank tot appelpostuur) of juist hele rare dingen doen met zelden voorkomende kenmerken.

      De oplossing is dan natuurlijk niet eenheidsworst te maken, maar je algoritme en/of data te verbeteren zodat de uitkomst beter past bij de maatschappij. Een kledingzaak die alleen kleding voor mannen van 1.70 tot 2.05 met slank postuur verkoopt vinden wij raar.

      • Het probleem van die trainingsdata zijn ‘unknown unknowns’.

        Je weet niet of er problemen zullen zijn, en al helemaal niet wat die problemen zullen zijn. Daarom kun je je trainingsdata niet verbeteren. Je weet immers niet in welke richting je die moet veranderen om beter te zijn.

        En een kledingzaak die alleen kleding voor mannen van 1.70 tot 2.05 met slank postuur verkoopt vinden wij helemaal niet raar. Er zijn genoeg kledingzaken die kleding voor mannen of voor vrouwen verkopen, of die zich richten op grote maten. En er zijn ook genoeg kledingzaken die zich richten op bepaaldse sub-culturen (die best wel vaak een correlatie hebben met huidskleur/raciale afkomst).

      • Voor de kledingzaken zie je dat er zaken die voor de grote omzet snelle doorvoer gaan en er zijn zaken voor aparte groepen. Je past kennelijk voldoende in het gemiddelde om het andere raar te vinden. https://www.google.nl/search?q=speciaalzaak+grote+maten+kleding&oq=speciaalzaak+grote+maten+kleding

        Even een geval uit de praktijk. Ik had ooit behoorlijk last bij een toegangspoort, die sloeg vrij vaak op tilt bij mij. Gemoderniseerd zodat die vast moest stellen dat er maar 1 persoon door heen kwam (pasje). Aan van alles gedacht, lengte grootte, rugzak, houding. Op een gegeven moment viel me elders op dat de koffieautomaat ook op tilt ging en de kraan in de wc al ging lopen op grote afstand. Op een avond een keer een foto buiten, ziet de jas er spierwit uit, normale kleur richting donker bruin. Toen was het echt duidelijk. De jas functioneert met de reflectie als een yammer voor actief infra rood beeld/signaal. Kun je van racisme gaan spreken of is er een andere oorzaak (zoals in dit geval).

  4. Ik denk dat waar iedereen het in de comments zo moeilijk mee heeft het probleem is dat hier een “algoritme” wordt vergeleken met een “getraind netwerk”. Die zijn zeker niet hetzelfde.

    Een algoritme neemt beslissingen op basis van duidelijk regels die door de ontwerper erin zijn gezet. Daarvan is het dus objectief vast te stellen of dat wel of niet racistisch is, want de beslisregels zijn bekend.

    Bij een getraind netwerk is het algoritme bij definitie onschuldig: dat doet niets anders dan de trainingsdata in een zo goed passende (maar vrijwel altijd ondoorgrondbare) regelset krijgen. In dat geval is het algoritme nooit het probleem, maar altijd de dataset.

    De uitspraak “een algoritme kan wel/niet racistisch zijn” mist het zeer kritieke onderscheid tussen deze twee situaties (en mogelijke toekomstige andere/nieuwe situaties). Door je te houden bij de uitspraak dat een bepaald “systeem” racistisch kan zijn, kan je dat probleem vermijden. Het is een beetje hetzelfde als zeggen “gereedschap kan wel/niet racistisch zijn” en dan het onderscheid vergeten tussen een hamer en een robot die een hamer hanteert: beide gereedschap, maar een behoorlijk verschil in wat die uitspraak impliceert.

    Hier zit het probleem in de discussie precies: sommige mensen denken bij “algoritme” aan “AI” (getraind netwerk) en anderen bij “algoritme” aan de code die geschreven is door een programmeur. De term “algoritme” toewijzen aan een getraind netwerk vind ik persoonlijk niet correct (want de regelset is meestal algeheel ondoorgrondbaar), maar dat wordt vaak wel als zodanig beschouwd. Een algoritme kan een netwerk trainen en/of uitvoeren, maar “is” niet dat netwerk.

    • Die zie ik wel. Het is ook niet correct, maar je ziet het zó veel in het normale spraakgebruik dat ik vrees dat dit dezelfde hopeloze case is als hacker/cracker. Ik zag bijvoorbeeld gisteren het Algoritmeregister van de stad Amsterdam, waarmee ze bedoelen het register van machine learning en natural language processing applicaties met onbekende hoeveelheden data die de gemeente inzet.

      Je komt dan bij de vraag of je de precieze term moet gebruiken, en hoe effectief je boodschap dan nog is. Even een analogie, als je ziet dat de nieuwe stadsbussen ongeschikt zijn voor mensen in een rolstoel, zou je dan zeggen “de busvervoerder heeft materieel dat onnodig rolstoelers hindert” of “de bus is anti-rolstoel” dan wel “de bus discrimineert rolstoelers”. Dat laatste maakt het punt veel effectiever, hoewel een bus (een groot metalen ding met vier wielen en een dikke dieselmotor) natuurlijk nergens een mening over heeft, laat staan een discriminerende. Daarom vind ik dat laatste de beste manier om de discussie te voeren.

      Daarnaast ergert het mij als mensen dan zeggen “ja nee het is de exploitant van het neurale netwerk” omdat dat afleidt van de discussie – er worden mensen benadeeld op een wettelijk verboden wijze. Daar moet wat aan gebeuren, die exploitant moet aan de slag. Discussies over of een algoritme, een dataset of een getraind netwerk de bron zijn, vertraagt het aanpakken van het probleem.

      Wellicht is dit een variant op de bekende klacht “Internet doet het niet”, die kan betekenen “ik heb geen verbinding met internet”, of “de server reageert niet” of “de DNS server is te traag” of zelfs “IE 10 heeft een bug waardoor deze website niet rendert” en ik kan me voorstellen dat je als ontvanger van die klacht héél verschillend omgaat met deze vier situaties. Maar volgens mij is de passende reactie dan wel “dat gaan we oplossen”. Toch?

      • “dat gaan we oplossen” is inderdaad de passende reactie.

        Waar ik echter bang voor ben is wanneer je dingen als “racisme” te bestempelt, een woord dat bijzonder veel erg negatieve connotaties heeft, dat de respons dan misschien zal zijn: “we hebben de verantwoordelijke persoon ontslagen”.

        Ik snap dat je een woord wil kiezen met veel impact, om te zorgen dat er zoveel mogelijk druk achter zip om het snel op te lossen. Maar met teveel druk heb je kans dat er iets breekt, en als dat iets de carriere van een onschuldige ontwikkelaar is, dan is die druk m.i. te ver gegaan.

        (We leven tenslotte in een cultuur waar de hele carriere van een raketgeleerde door het slijk wordt gehaald alleen maar omdat hij op tv dat leuke shirt droeg wat zijn vriendin hem had gegeven.)

      • Yeah, precies, taalgebruik door de mensen in de sector en buitenstaanders is hier heel anders van elkaar. Dat is het probleem waar tegen aan gelopen wordt.

        Maar om de analogie met de bussen even door te zetten: hier is het minder “de busvervoerder heeft […]” / “de bus is […]” maar meer “de fabriek waar deze bussen gemaakt worden is […]”. En dat vind ik wel een belangrijk onderscheid: de maker van het algoritme dat het netwerk getraind heeft, heeft nul controle over hoe dat netwerk wordt getraind en hoe dat daarna wordt ingezet. Waarom gebruiken we een term die de schuld lijkt neer te leggen bij het algoritme (mens: de programmeur) en niet bij dataset (mens: degene die de dataset heeft samengesteld, wellicht een of andere intern of een publieke dataset die van het internet is geplukt) of bij de inzet/controle van het resultaat (mens: management)? Zoals WilleM ook al schrijft: dit kan ertoe leiden dat iemand, die niets te maken had met het probleem, ergens ontslagen wordt.

        Het is denk ik dan netter/correcter om in plaats van “Het algoritme dat Twitter gebruikt om op foto’s in te zoomen is racistisch” het te houden op simpelweg “Twitter zoomt op een racistische manier in op foto’s”. Algoritme is hier niets meer dan een woord wat de verantwoordelijkheid weghaalt van daar waar hij eigenlijk hoort: bij het management van Twitter. In een andere respons zeg je “[…] omdat het probleem hoe dan ook in het systeem zit en het algoritme daar het in het oog springende deel van is”, maar dat is niet waar: niemand ziet een algoritme: je ziet alleen het beleid van Twitter. Het algoritme is slechts een excuus om ermee weg te komen.

        Twitter moet hun beleid aanpassen; of ze dat doen door een algoritme te veranderen, een netwerk opnieuw te trainen, of hun apen met eye tracking headsets een ander soort bananen te voeren – dat maakt niet uit, en is niet relevant voor iedereen die niet bij Twitter werkt.

    • Bij een getraind netwerk is het algoritme bij definitie onschuldig: dat doet niets anders dan de trainingsdata in een zo goed passende (maar vrijwel altijd ondoorgrondbare) regelset krijgen. In dat geval is het algoritme nooit het probleem, maar altijd de dataset.

      Stel je trained een gezichtsclassificatie netwerk op alle gezichten in Nederland (representatief). Kies je gemiddelde fout als de verliesfunctie, dan is het netwerk beter op blanke gezichten. Kies je mediaan fout als de verliesfunctie, dan is het netwerk ook effectief op donkere gezichten.

      De keuze van de parameters voor algoritmes, keuzes door mensen gemaakt, hebben invloed op de uiteindelijke bias in het systeem. Een ML systeem gaat van data collectie, tot uiteindelijke beslissingen, en bij elke stap kunnen er problemen ontstaan.

      Een ML model is een probabilistisch (vaak) algoritme.

  5. Ik moet opeens denken aan een paar jaar geleden. Personeel van de werkgever moest een afspiegeling van de maatschappij worden, als je dat als niet discriminerend opvat dan heb je bij het voeden van algoritmen een probleem.

    Als ik het goed herinner heeft ca 15% van de inwoners van Nederland een ‘niet-westerse’ achtergrond. Als je dus zonder nadenken een gezichtherkennings neuraalnetwerk gaat trainen met een ‘niet discriminerende’ afspiegeling van de bevolking, of met een niet gestratificeerde steekproef van de bevolking, zal dit systeem alleen voor de westerse gezichten goed werken. Je moet dus bewust gaan selecteren op afkomst voor de trainingsset. Dat klinkt als je het niet goed uitlegt ook als discriminatie!

    Ik heb er moeite mee dat er aangenomen wordt dat de makers van de software discrimineerden als de uitkomsten discriminerend blijken te zijn. Er kan een onverwachte correlatie aan ten grondslag liggen of simpelweg dat men zich dit niet realiseerde bij het maken. (Het voorbeeld is inmiddels vrij bekend, als je daar nog de fout mee ingaat dat neig ik eerder naar onkunde dan discriminatie)

    Het helpt ook de strijd tegen discriminatie niet als je ‘zomaar’ mensen die vaak geheel te goeder trouw te werk zijn gegaan gaat beschuldigen van discriminatie. Misschien moeten ze iets constructiever te werk gaan met het aankaarten van dit soort problemen.

    • Het gaat hier niet om een representatieve afspiegeling creëren van de maatschappij. Het gaat erom dat minderheden net zo goed ondersteund worden als de grote groep. Een werkgever moet ook speciaal investeren om die ene werknemer met rolstoel naar binnen te krijgen (een oprit dus, of een lift) ondanks dat slechts een zeer klein percentage van de mensen in een rolstoel zit. Het gaat erom dat iedereen mee doet en iedereen gelijke kansen krijgt, ook als jouw situatie uniek is.

      Discriminatie is zonder objectieve reden mensen anders behandelen op basis van een inherent kenmerk zoals etnische afkomst of geslacht. Dat is niet hetzelfde als mensen minderwaardig vinden of mensen uitsluiten. Er hoeft ook geen bewuste intentie bij te zitten, zoals “eigenlijk vind ik rolstoelers maar stom”. Je hebt gewoon een oud pand met alleen een trap, en daarom wijs je rolstoelers af want dat kan gewoon niet bij jullie. Heel vervelend voor jou, maar dat is juridisch niet toegestaan.

      Op welk moment mag je zeggen, we zijn wel klaar met constructief te werk gaan want er gebeurt maar niets? Het is al járen bekend dat fotosets voor machine learning een bias hebben voor witte mensen bijvoorbeeld. En elke keer komt er weer een nieuwe startup met een hippe toepassing die niet-witte mensen niet herkent. Hoe veel jaar moet je als minderheid dan rustig blijven en keurig vragen of ze misschien een nieuwe dataset willen maken? Op welk moment mag je zeggen, dit is niet een incidenteel foutje van een te goeder trouw zijnde partij maar dit is iets structureels, dit is het zoveelste voorbeeld van discriminatie?

        • Bij een objectieve reden (de functie is zwaar tillen) is het juridisch geen discriminatie. Ik mag ook zwarte mannen afwijzen die Sinterklaas willen komen spelen deze winter. Maar dat zijn de uitzonderingen. Bij een kantoorbaan kan ik echt niet zeggen dat ik alleen mooie vrouwen wil omdat ik weet dat die beter werken bij mij.

          Het klopt dat discriminatie een wereldwijd probleem is. Helaas.

          • Het klopt dat discriminatie een wereldwijd probleem is. Helaas.

            Je kunt wel vuur met vuur bestrijden (voeding weghalen) maar niet discriminatie met discriminatie (creeert nieuwe voeding). De enige optie is elk geval objectief bekijken en onderzoeken. E wordt te vaak discriminatie en racisme geroepen terwijl er iets anders aan de hand is. De media aandacht daarvoor werkt het in de hand.

            Het geval van een te omvangrijk persoon die niet door het standaard poortje paste was een echt gebeurd praktijk geval. In dat geval was het een blank persoon indien hij gekleurd was geweest was er dikke kans op escalatie van discriminatie en racisme. Oplossing was een begeleiding door de portier.

      • Het gaat hier niet om een representatieve afspiegeling creëren van de maatschappij. Het gaat erom dat minderheden net zo goed ondersteund worden als de grote groep. Een werkgever moet ook speciaal investeren om die ene werknemer met rolstoel naar binnen te krijgen (een oprit dus, of een lift) ondanks dat slechts een zeer klein percentage van de mensen in een rolstoel zit. Het gaat erom dat iedereen mee doet en iedereen gelijke kansen krijgt, ook als jouw situatie uniek is.

        Volgens die redenatie mag, bijvoorbeeld, een verzekeraar niet kijken in wat voor risocroep iemand zit, maar moet iedereen dezelfde premie betalen voor dezelfde dekking. Dan zou het dus fout zijn om te zeggen ‘jongeren tussen de 18 en 23 moeten meer betalen want die veroorzaken meer ongelukken’.

        We kunnen gezamelijk vast massa’s voorbeelden bedenken die volgens deze redenatie fout zijn, maar die we eigenlijk niet fout vinden.

      • Arnoud, ik denk dat je veel mensen die ‘ iets met machine learning’ beginnen overschat. Data scientist is een buzz word en je vindt links en rechts op internet sites cursussen die beloven een ‘data scientist’ van je te maken. Stuk voor stuk focussen ze zich puur op de techniek.

        De mensen die op basis daarvan beginnen met een leuk idee kan je niet kwalijk nemen dat ze niet op de hoogte zijn van dit verschijnsel, al is het in wetenschappelijke kringen al jaren bekend. Dat is niet hun achtergrond en het besef en kennis is er niet. Ik kwam in de jaren negentig voor het eerst in aanraking met Neurale Netwekren en heb er enige univeritaire achtergrond bij. Om mij de technieken eigen te maken heb ik zelf bij zo’n cursus gezeten. Onder de mede cursisten waren bijvoorbeeld paar adminstratief medewerkers van HR, die benieuwd waren of ML ze kon helpen bij werving en selectie, geen enkele statistische achtergrond, maar ze leren wel hoe ze een ridge regression kunnen uitvoeren in R en hoe ze kunnen zien of welke parameters significant zijn. Dit zijn ook precies de mensen die in het hart van ‘afspiegeling van de samenleving is geen discriminatie’ werken, waar ik op doelde.

        Om het kort samen te vatten: Statistiek kennis nog beroerder als bij de rechtzaak van Lucia de Berk!

        Daarom is mijn antwoord op jouw laatste vraag (welk moment) ‘nu nog niet’ en als leken zonder kennis van statistiek deze technieken blijven inzetten wellicht zelfs ‘nooit’. Tenzij je natuurlijk te maken hebt met iemand die wel grondig geschoold is in statistiek en beter had moeten weten hoe je in die situatie een representatieve trainingsset creëert”

        Wat je wel misschien inmiddels mag verwachten is dat bedrijven die deze producten afnemen hun due diligence doen en kijken of de makers wel gekwalificeerd zijn voor het werk dat ze doen!

  6. Het klopt dat discriminatie een wereldwijd probleem is. Helaas.

    Je kunt wel vuur met vuur bestrijden (voeding weghalen) maar niet discriminatie met discriminatie (creeert nieuwe voeding). De enige optie is elk geval objectief bekijken en onderzoeken. E wordt te vaak discriminatie en racisme geroepen terwijl er iets anders aan de hand is. De media aandacht daarvoor werkt het in de hand.

    Het geval van een te omvangrijk persoon die niet door het standaard poortje paste was een echt gebeurd praktijk geval. In dat geval was het een blank persoon indien hij gekleurd was geweest was er dikke kans op escalatie van discriminatie en racisme. Oplossing was een begeleiding door de portier.

    • Ik vind begeleiding door de portier een lapmiddel, geen oplossing. Dat betekent dus, jij moet elke keer zeggen “ik ben te dik voor het poortje, wilt u de nooddeur opendoen”. Of de rolstoeler, sorry dat ik niet kan lopen, wilt u me even dragen. Dat vind ik echt verwerpelijk, dat is geen oplossing voor het probleem. Als de lopers zelf naar binnen kunnen, dan moeten de rolstoelers dat ook kunnen.

      Het vervelende is dat je een systeem moet veranderen. Dat lukt niet door te zeggen, “jongens vanaf nu letten we niet meer op huidskleur”. Er zitten zoveel onbewuste filters en beslismomenten in zo’n systeem dat je echt meer moet doen. Daarom voorstellen zoals quota of positieve discriminatie. Ik ben het met je eens dat dat ook weinig ideaal is (“oh, dus jij bent het quota”) maar je forceert zo een verandering die er anders gewoon niet komt. Laat ik het zo zeggen: ik heb afgezien van deze paardenmiddelen (met, ik geef het toe, echt nadelen) nog geen enkel middel gezien waarmee discriminerende systemen doorbroken werden. Jij wel?

      • Het probleem met het poortje lag in het achterliggende proces met de betreffende eisen. Het doel was voorkomen dat twee personen in een zelfde doorgang daar doorheen konden komen. De mogelijkheid om dat gecontroleerd te omzeilen lag als discretionaire bevoegdheid bij de portier. Je ziet in luchthavens ook zo’n soort sluis ontstaan. Ik zou niet weten houd je dat anders moet oplossen. De outliers blijf je houden. Dat je outliers zo goed mogelijk moet afhandelen en dat het op een afwijkende manier gaat, dat zij zo.

        Ik heb een systeem gezien (kredietbeoordeling) gebaseerd onder andere op de eigen ingeleverde jaarverslagen. Als uit zo’n jaarverslag blijkt dat je geen kapitaal hebt en verlies leidt dan is dat niet positief. Toch kwamen er klachten dat het fout zou zijn en spraken van discriminatie, duidelijk onterecht. Let op dat het argument discriminatie ook misbruikt kan worden zodat je meer discriminatie krijgt als je er op reageert. De eerste vraag die je zou moeten stellen is er echt er sprake van dat er niets klopt en pas daarna waarom hoezo etc.

        Onbewuste beslismomenten? Je zult met een mate van onzekerheden moeten leven. Dat iemand een keer te hard rijdt en geen bekeuring krijgt is geen reden om maar helemaal niets aan handhaving te doen dan krijgt niemand een bekeuring en is er geen kans op discriminatie.

      • Arnoud, ik bewonder je idealisme, maar de realiteit is, dat wat je ook bedenkt er altijd situaties zullen zijn die je niet van te voren bedacht hebt, of die niet in je trainingsset zitten. Hoe groot moet een minderheid zijn om rekening mee te moeten houden? Diversiteit in huidskleur is erg algemeen, daar zal je systeem gewoon mee overweg moeten kunnen.

        Maar moet je systeem bijv. ook mensen kunnen herkennen die een – door ziekte of ongeluk – ernstig misvormd gezicht hebben? Een database opbouwen van gezichten van alle mensen op aarde en zorgen dat je systeem die allemaal kan herkennen? Natuurlijk periodiek aan te vullen met recente foto’s in diverse belichtingen, want mensen veranderen.

        En wat als een winkelier naast zijn trap ook een rolstoelbaan maakt, en er komt iemand die slecht ter been is en van beiden geen gebruik kan maken? Dan ook maar een lift? Blijkt de volgende persoon die slecht ter been is ook nog eens claustrofobie te hebben en de lift niet in te durven. Dan nog maar een extra aanpassing maken?

        Hoe ver moet je redelijkerwijs gaan? Wat zegt de wet hierover?

  7. Er is hier sprake van Twitter-ophef. Een storm in een glas water die enorme vormen aanneemt.

    mensen die het Twitter-gezichtsherkenningsalgoritme hebben gebouwd, hebben daarbij racistische keuzes gemaakt

    Twitter doet niet meer aan gezichtsherkenning. Dit is sinds een jaar of vijf uitgezet wegens potentieel problematisch. De vervanger is gemaakt door een lichtgekleurde Zuid-Amerikaan, en ze hebben expres, als een van de eerste bedrijven, veel aandacht besteed aan diversiteit in de train data en mogelijke problematiek. Het algoritme probeert tekst in beeld te krijgen. Bijvoorbeeld zodat een meme foto niet raar wordt afgesneden. Daarom kijkt het naar scherpe randen en hoeken, hoog contrast, etc. Een wit gezicht met zwart pak geeft al sneller een hoger contrast. Er zijn gemakkelijk voorbeelden te bedenken waar de gekleurde mens in beeld komt en een wit iemand wordt afgesneden.

    Dus sterk gezegd: De mensen die achter dit simpele algoritme een racistische boeman zoeken, die racistische motieven of nalatigheid toeschrijven aan de auteurs, die verschrikkelijke ophef maken met als “bewijs” 1 enkel plaatje, dit zijn de mensen met een focus op huidskleur, die werkelijke racisme in de samenleving belachelijk maken, die leven in een wereld waar de racistische boeman het op hen heeft gemikt en het voldoende is om blank te zijn om ongewild deze boeman te spelen.

    Het probleem is niet dit algoritme. Het probleem is het probleem dat men ervan maakt. Om dat op te lossen, laat Twitter nu gebruikers zelf afbeeldingen bijsnijden. Het probleem is dat dit soort fophef nonsens het boegbeeld van de (veel naardere) verborgen racisme verwordt. Dan zal het allemaal wel meevallen. Dit algoritme is slechts een uitwas van de maatschappij. Dit algoritme verbeteren, of ontdoen van “gevoelsdiscriminatie” (vergelijk, gevoelstemperatuur), lost helemaal geen probleem op (ja, misschien een PR probleem van Twitter). Het “probleem” (als het zo mag heten) is dat er geen diversiteit is aan de top in de industrie, en dat met meer diversiteit deze situatie misschien was te voorzien. Daar mag je aan werken, en werken aan een echt probleem, indien dit de uitkomst is van een gebrek aan kansen.

    Fair ML is inmiddels een volwassen onderzoeksgebied. Stellen dat de oneerlijkheid zich alleen in de dataset bevindt is inmiddels achterhaald (en wordt als naief beschouwd). Een eerlijk model, met eerlijke data, kan best in een oneerlijke situatie worden geimplementeerd. Ik kan ook de leerfunctie zelf fouten op witte mensen zwaarder laten bestraffen dan fouten op zwarte mensen. Zelfs al heb je dan 50% witte en 50% zwarte mensen in de train data, het algoritme zal het beter doen op witte mensen. Er zijn zo nog andere manieren om oneerlijkheid te introduceren, met of zonder diverse train data.

  8. Ook zie ik kronkels in het volgende:

    • Ik zie de discriminatie (of zelfs maar achterstelling) niet. De voorbeelden zijn geforceerd, de plaatjes speciaal ontworpen om het algoritme racistisch te doen lijken. Een aanval kan men dit noemen. Dit is een truuk waar men dan zelf in gaat geloven. Welk teer kinderhart is in werkelijkheid gekwetst of achtergesteld?

    • Er wordt geen onderscheid gemaakt tussen discriminatie en oprechte fouten. De uitkomst wordt geinterpreteerd als racistisch, terwijl dit gewoon een technische zaak is. Vergelijk zelfrijdende auto’s en mensen met een donkere huidskleur. Een donkere huidskleur is gewoon lastiger te zien ’s nachts, en daarom worden donkere voetgangers slecht herkend. Met sneeuw zou het misschien omgekeerd zijn. Hoe zou je dit oplossen? Is eerlijkheid dan geen zelfrijdende auto’s op de weg? Maar auto’s met menselijke chaffeur hebben hetzelfde probleem. Dan maar niet meer rijden, omdat het oneerlijk is?

  9. Een ander goed voorbeeld: Een huidskanker/melanoma detectie model doet het slechter op donkere huidskleur. Naast dingen als contrast heeft dit de volgende oorzaak: melanoma komt veel vaker voor bij blanke mensen, daarom heb je veel meer train data voor blanke mensen. Is de implementatie van zo’n detectie model dan achterstelling? Intentie echt niet van belang, slechts de uitkomst? En ga je dan echt blanke-huid training data weggooien om het verschil te overbruggen?

    Voor het Twitter bijsnij-model. Stel je komt erachter, na diepgaand onderzoek in de mogelijke negatieve impact op de maatschappij van een slimme crop resize.php, dat het komt omdat de training data meer blanke mensen met zwarte pakken heeft, en slechts een dozijn donkere mensen met zwarte pakken. Dus ga je op zoek naar meer foto’s met donkere mensen met zwarte pakken, maar vind je er maar weinig, of steeds dezelfde bekende figuren. Wat nu? Het gebrek aan diversiteit bevindt zich dan in de maatschappij, en niet in je training data selectie. Dan maar gezichtsherkenning weer aanzetten, en random bijsnijden als er mensen in de foto zitten?

    Heeft Google, door een foto-tag systeem te implementeren, laks gehandeld, en daarmee, indirect of zelfs direct, een donkere man een gorilla genoemd (omdat het tag-systeem een fout maakte)? Natuurlijk doe je daar direct wat aan, zodra je ervan op de hoogte ben, die gorilla-tag gaat eruit, maar ben je reeds een racist geweest? Is Oops! wel genoeg als je verantwoordelijk bent voor de uitkomst van een automatie?

    • Ik geloof er gewoon niets van dat zo’n probleem alléén in de maatschappij zit. Ik weet vrij zeker dat een goede, diverse dataset prima te maken is en een representatieve hoeveelheid van iedere huidskleur kan bevatten. Het probleem zit in de dataset.

      Ja, het zal vast dat er minder donkere mensen in zwart pak zijn – dat staat immers minder goed bij die huidskleur. Maar dat wil niet zeggen dat je dus maar voor lief neemt dat je dataset weinig donkere mensen bevat. Dan ga je dus je data uitbreiden, zorgen dat je wél voldoende gezichten van iedere tint kunt herkennen. En zelfs dat maar 10% van de mensen in jouw toepassingsgebied een donkere huid heeft, is geen argument. Je moet die 10% net zo goed herkennen als de 90%. Dus dan zul je met synthetische data moeten gaan werken, of data uit andere gebieden importeren om de balans te herstellen. Het gaat om mensen.

      • Arnoud, je vraagt absolute perfectie zonder enige ruimte voor fouten, dat is een godsonmogelijkheid. Er zijn twee situaties: 1- je systeem, de verwerking, moet uit een bekende vaste populatie de grootste hoeveelheid goed afhandelen. Het is al een verbetering als dit beter gaat dan wat mensen zouden doen. Een weerstand tegen automatisering omdat het automatisering is is geen goed argument. 2- het systeem, de verwerking, moet met een onbekende selectie uit een geschatte bekende populatie de grootste hoeveelheid goed afhandelen. De foutmarge zal door de onbekendheid groter zijn. De eis dat het uit een onbekende minderheid net zo goed moet gaan als uit de meer bekende grotere groep is nogal onmenselijk discriminerend.

        Neem die herkenning van ziektes welke ras en erfelijk gebonden zijn. De voorwaardelijke kans is geheel anders (Baysian), dat krijg je alleen behoorlijk als je al die verboden kenmerken meeneemt. Een arts zal dat gewoon doen zonder het uit te spreken. Het geeft het beste resultaat voor de groep al zullen er individuen zijn die daarbij pech hebben.

        In een casino heeft iedereen gelijke kans maar niet iedereen gaat met een superuitkering naar huis. Dat ligt niet aan de huidskleur.

        • Wat flauw, ik heb nergens gevraagd om absolute perfectie.

          Wat je zegt, klinkt als “we hebben een trap, dat is voor de grootste hoeveelheid mensen genoeg om naar de verdieping te komen”. Een trap is vast een verbetering ten opzichte van met een stuk touw omhoog gehesen worden of via spijkers moeten klauteren, maar deze oplossing sluit rolstoelers uit en is dus niet acceptabel voor een openbaar gebouw of werkgever. Regel maar een lift of een oprit. Dat is alles wat ik zeg: een representatieve dataset, het equivalent van een lift.

          In gevallen waarin ras relevant is, zoals etnisch gebonden ziektekenmerken herkennen, is het natuurlijk logisch dat je traint op rasgebonden datasets. Hoewel dat ook vaak misgaat; botsproeven in auto’s worden alleen gedaan met poppen die mannen van 1.80 en van 1.60 voorstellen, er zijn geen poppen met vrouwenproporties. Je zou zeggen dat het relevant is dat een vrouw een andere bouw heeft zodat je de klap anders opvangt. Maar dit even terzijde.

          Bij de bulk van de gezichtsherkenning is het volstrekt irrelevant van welk ras iemand is en behoort het systeem dus geen slechtere performance te hebben in relatie tot ras. Net zo min als een weegschaal boven de 150 kilo slechtere metingen zou moeten doen.

          • Dat bij de bulk van gezichtsherkenning het ras volstrekt irrelevant zou zijn is jouw aanname. Het is een gewenst ideaal van een wereldbeeld, maar die klopt niet. Je maakt daarmee bijna ongemerkt een van de fundamentele fouten rond dataverwerkingen en analyses.

            Hierboven is ergens een link dat de verschillen groot genoeg zijn voor een opzet een algoritmische benadering. Mensen hebben er van nature zelf al een probleem mee, we worden van nature als mens sterk getraind op wat ons het meeste omringd. De enkele afwijking is door het grote verschil niet zo relevant totdat ineens vaak voorkomt. Je opmerking over vrouwenproporties in botsproeven raakt de kern en moet je niet terzijde schuiven. Wat nu als er een verschil in de praktijk blijkt dat vrouwen onevenredig zwaar nadeel ondervinden bij botsingen? Je moet hen even doortrekken naar de medische wereld. Ideaalbeeld is dat iedereen hetzelfde op een behandeling reageert. Dat is natuurlijk niet zo, je kunt als individu de pech hebben van een zeldzame bijwerking. Om dat nu als racisme en discriminatie te bestempelen gaat wel heel ver (doorgeschoten) .

            Je ontkent de vraag naar absolute perfectie maar tevens ziek dat je hem eist omdat iedereen gelijk moet zijn. Terug naar die lift, wat een trap zou iet altijd volstaan. Genoeg gebieden waar het als woning of vervoer gewoon niet gaat. Bergbeklimmen of in wilde natuurgebieden met een rolstoel lijkt me behoorlijk uitdagend. Ik weet dat rolstoelgebruikers vaak veel sterkere armen dan anderen hebben. Toch komt het met beperkingen die je niet kan ontkennen.

      • En als het wat anders is? Stel je komt erachter, na diepgaand onderzoek in de mogelijke negatieve impact op de maatschappij van een slimme crop resize.php, dat het niets met de trainings data te maken heeft, dat die goed gebalanceerd is. Maar het blijkt dat er een volledig technische reden is waarom een algoritme meer succes heeft bij blanke gezichten.

        Ga je dan afdwingen dat men trainingsdata met 90% donkere gezichten gebruikt zodat de succesratio bij blanke gezichten hetzelfde wordt? Of ga je zelfs het algoritme specifiek op huidskleur laten filteren en dan bij blanke gezichten de succesratio opzettelijk omlaag schroeven?

        • Het kan natuurlijk dat het niet aan de data ligt maar aan je algoritme. Goed dat je dat dan ontdekt hebt, dan kun je dus je algoritme aan gaan passen. Maar ik denk echt dat dat een hoge uitzondering is, gezien hoe die machine learning algoritmes werken. Bij een lichtgevoelige sensor kan ik me er wat bij voorstellen, dat er ergens diep een cutoff value zit die dan per ongeluk de donkere huidstinten weglaat, maar veel meer voorbeelden zijn er denk ik niet snel.

          Het punt is dat technologie geen mensen uit moet sluiten. Dat je in een incidenteel geval eens iemand niet kunt helpen, dat kan gebeuren. Ik heb ook wel eens dat een dryblower mijn hand niet herkent of dat de parkeergaragecamera mijn kenteken niet scant. En er zijn vast ook rijksmonumenten waar een traplift gewoon niet haalbaar is. Maar het structurele, dat moet worden voorkomen. Het heeft dan geen zin om de stelling te forceren tot het uiterste geval (“wat nu als het écht technisch onmogelijk is andere dan Caucasische gezichten betrouwbaar te herkennen”) want dan krijg je alleen maar extreme standpunten en dat discussieert niet. Ik geloof gewoon niet dat er technologie is die echt zo extreem werkt.

          • Stel dat het structurele voorkomen kan worden, zoals jij zegt. Dan blijft het een kosten/baten analyse. Om ‘het structurele’ te kunnen voorkomen, moet een commerciele partij kosten maken. Hoeveel extra kosten mag je eisen om 1 of 2 % technische verbetering te krijgen. Moet ieder product perfect zijn?

            Mag die goede, maar niet perfecte, melanoma-herkenning pas op de markt komen als die voor alle huidskleuren even goed scoort? Of pas als de leverancier kan bewijzen dat hij een representatieve dataset gebruikt heeft? Of pas als hij zijn dataleveranciers getraind heeft in een aangepaste procedure met een specifieke lichtinvalshoek en een bepaald kleurfilter om de trainingsdata te maken?

            Ik ben er echt van overtuigd dat er, binnen ieders concrete mogelijkheden, voldoende aandacht voor dit probleem is. Maar de oplossingen zijn niet vanzelfsprekend, zeker niet voor 1 partij binnen een hele keten.

      • Ik vind dat je wat makkelijk voorbij gaat aan het huidkanker voorbeeld van Thorvald. Je wil zoveel mogelijk kanker op tijd herkennen dus gebruik je alle trainingsdata. Dat dan een melanoom bij een blank persoon beter herkent wordt is dan maar zo.

        Als het verboden ‘discriminatie’ is wanneer we niet bewust het model over all slechter maken om herkenning bij alle huidskleuren gelijk te krijgen, met als gevolg dat er dus meer mensen zullen sterven door te late / foute diagnose, dan zijn we echt veel te ver doorgeslagen.

        Misschien is het wel optimaal om een apart model te maken voor elke huidskleur, gaan we dat dan uit principe verbieden omdat we vooraf een onderscheid maken op basis van huidskleur? En wat als blijkt dat het model voor donkere huid 80% accuraat is en voor blanke huid 90%, verbieden we het dan omdat ze niet even goed zijn?

        En met het bijsnijden zeg dat je de trainingsdata zodanig maakt dat iedere groep gelijk vertegenwoordigd is. Contrast speelt een belangrijke rol bij beeld herkenning, je hoeft geen genie te zijn om te realiseren dat een donkere of een licht huidskleur dus invloed kan hebben op het resultaat. Het is helemaal niet gezegd dat het aan de dataset ligt en dan houd je dus altijd een verschil in uitkomsten.

        Je laatste zinnetje is wat dat betreft belangrijk, het gaat om mensen. Dus kijk naar de gevolgen voor mensen. Als blijkt dat een automatisch foto bijsnij systeem niet zo goed blijkt te werken voor mensen met een donkere huid probeer je dat uiteraard te verbeteren, maar onder het mom van discriminatie een grotendeels werkend systeem dan maar verbieden is onzin. So what dat de foto niet altijd even goed wordt bijgesneden. Er wordt niemand schade aangedaan als de foto niet automatisch bijgesneden kan worden.

        Is het echter een gezichtsherkenningsysteem van de politie om gezochte criminelen op te sporen dan is het wel een issue als het systeem onevenredig veel false positives bij bepaalde groepen geeft.

        We slaan met zijn allen een beetje door in alles maar discriminatie noemen.

      • Ik denk dat een middengrond goed denkbaar is: Gebruik maken van de data die aanwezig is, en het probleem voor de toekomst minder maken. In deze relevant:

        Women, blacks, and the very old (aged 80 or more) have been under-represented in many past randomized clinical trials, but ongoing studies will resolve this discrepancy in most instances. The Women’s Health Initiative (WHI) will provide data on 161,861 multi-ethnic postmenopausal women. ALLHAT results will include 15,133 hypertensive blacks, and AASK will have 1,094 hypertensive blacks with nephrosclerosis. ALLHAT, STOP-2, and HYVET will include more than 5,000 persons aged 80 or more. Future trials on diabetes mellitus must be designed to improve the representation of women and blacks.– 1999 https://pubmed.ncbi.nlm.nih.gov/10600055/

        En

        Health informatics interventions are designed to help people avoid, recover from, or cope with disease and disability, or to improve the quality and safety of healthcare. Unfortunately, they pose a risk of producing intervention-generated inequalities (IGI) by disproportionately benefiting more advantaged people. In this perspective paper, we discuss characteristics of health-related interventions known to produce IGI, explain why health informatics interventions are particularly vulnerable to this phenomenon, and describe safeguards that can be implemented to improve health equity. — 2018 https://pubmed.ncbi.nlm.nih.gov/29788380/

        Dus: altijd goed oppassen voor bias in de train data. Als het probleem in de maatschappij ligt (tests en data ontworpen voor rijke blanke mensen), dan het probleem bij de kern aanpakken, voor structurele oplossingen, ipv. symptoombestrijding downstream.

          • Maar om die data goed te krijgen, dien je toch iets in de maatschappij te veranderen (in dit geval, dat ziekenhuizen en onderzoekers data laten genereren door hoofdzakelijk bevoorrechte mensen lijkt me niet een geval wat een gebalanceerde dataset op kan lossen, je moet een stapje terug in het process, naar een probleem wat veroorzaakt wordt door sociale ongelijkheid)?

              • Vaak kan het probleem ongedaan worden, door de voorspellingen van een model bij te schroeven. Je kan dan meerdere manieren van eerlijkheid introduceren. Er zijn meerdere definities denkbaar, en je kan niet voor alle definities tegelijk optimaliseren.

                Je lijkt hier de definitie van gelijke behandeling aan te hangen (“gelijkheid van uitkomst” of zelfs “demografische pariteit”). Dit is een vrij sterke positie ten opzichte van bijvoorbeeld “gelijkheid van kansen”. Voor een krediet model zal het veel meer aan winst inleveren om demografische pariteit te verkrijgen. Voor een medisch model is de kans heel groot, dat de accuraatheid van de meerderheid naar beneden gaat om het verschil noodzakelijk te overbruggen, dan dat de accuraatheid van de minderheid gelijk te trekken is met meer data. Ik heb geen kritiek op de aangehangen definitie, maar realiseer dat dit niet de enige is en demografische pariteit een zeer strenge definitie is, die best gemotiveerd mag worden.

                Dus ja, graag, ga op zoek en vindt bijvoorbeeld https://www.ibm.com/blogs/research/2019/01/diversity-in-faces/ een miljoen diverse gezichten om je model beter te maken voor diversiteit. Maar een bank die leningen uitschrijft aan gelijke percentages bevolkingsgroepen zal slechts ~64 cent van de 1 euro mogelijke winst pakken (en leningen niet kunnen terugbetalen doet ook schade aan de financiele vrijheid van minderheden, en meer kredietwaardige mensen krijgen dan geen lening dankzij blanke huidskleur waar zij ook niets aan kunnen doen (eerlijk voor wie?), het blijft een zeer delicaat probleem).

                En spreek je wetenschappers en instituten aan op de creatie van niet-diverse data. Steun je initiatieven om sociale ongelijkheid aan te pakken. En voorkom je dat je deze encodeert in een model en daarmee witwast (computer says no!).

          • Thorvald is duidelijk als de bron zit in vermogensongelijkheid moet je dat niet willen gaan goed maken in een regeling op huidskleur. Het effect is dat je daarmee een racistisch discriminerend model gaat voeren, ook wel aangeduid als “positieve discriminatie”. Dat betekent dat je individuen gaat uitsluiten op raskenmerken. Daar is niets positiefs aan.

            Dat er applicatis gebouwd welke enkel Ascii ondersteunen is te bilijken als de achterliggende toepassing niet meer informatie nodig heeft. Rond Solas GPS is dat als voorbeeld prima te doen. Je komst zelfs stuff bits tegen om verwarring in signalering te voorkomen (variabele lengtes). De variabele lengte is een fraai voorbeeld waarbij mensen het lastig hebben met het vertalen naar techniek. Zo’n persoon kapt ook vrij vaak af (ik weet genoeg) als hij niet voldoende informatie heeft.

  10. Voer voor nadenken weer, bedankt!

    Ik denk dat bovenstaande reactiestroom goed weergeeft waarom het zo moeilijk is om het eindresultaat als discriminerend te zien. Zo kun je je website ook voorzien van extra code om bijv. (kleuren)blinden te helpen. Het is echter vaak niet zo makkelijk om je site hier op aan te passen, en het netto resultaat is dan ook dat een heel fors deel van het web ontoegankelijk(er) is voor deze mensen. In essentie kun je dus rustig stellen dat een site die die ondersteuning niet biedt discriminerend is voor mensen met die beperkingen. Zoals velen met mij vind ik het lastig om dat zo te betitelen, juist omdat de intentie daar nooit voor is.

    In het voorbeeld van de gezichtsherkenning vind ik nog toegevoegd dat het hele doel van het algoritme nooit een objectieve/wetenschappelijk verantwoorde verwerking van de data was, en dat er dus helemaal geen reden of excuus is om te zeggen dat een ongelijke prestatie ‘nu eenmaal’ het resultaat is. In de praktijk, zeker bij ML algoritmes, zijn je teams Data Analytics toch al sloten tijd kwijt aan het ‘masseren’ van de verschillende datasets, inputs, formules, tussenstappen, filters etc. ze zijn in die zin heel intiem met de ontzettend verschillende datasets verweven, een gezamenlijk geheel.

    Je kunt ze dan ook misschien wel los van elkaar meten, maar je kunt alleen het eindproduct testen en valideren. In de pijplijnen waarin je je software bouwt & runt bak je toch ook al stapels (stapelsstapelsstapels) tests. Ik denk dat het prima voor te stellen is dat er een open source referentietest komt waarop een AI-gezichtsherkenning gekwalificeerd moet worden voordat ‘ie in productie mag.

    Zo verwoordt is het dus een vanzelfsprekende kwaliteitseis en functionele test op de allerlaatste pijnbank voor je aan het werk mag. Echter, zo’n test bestaat er dus uit door over de standaard-interface een paar vragen te stellen en te kijken of de antwoorden goed zijn. Welke software dat heeft geproduceerd is dan niet meer relevant, noch hoe die software tot stand kwam. Op deze manier kan ik er niets aan doen dat ik meestens blanke bejaarden in mijn rollator-webwinkel dataset heb zitten maar wel zelf een extra dataset inkoop en integreer ter correctie bijv.

    Voor die datasets neig ik het meer als een tooling probleem te zien; je zou bijvoorbeeld bepaalde standaardwaardes/correctiefactoren kunnen publiceren die toolkit-leveranciers dan weer kunnen gebruiken om standaardcorrecties te integreren en aan te bieden (zie bijv. je Adobe Lightroom met lenzen).

    • Als je ervoor zorgt dat je website een goed contrast heeft is die van zichzelf al goed toegankelijk voor kleurenblinden en slechtzienden. Bij blinden plaatjes voorzien van “alt” tags; kijk ook eens in een text-only browser hoe je website er daar uitziet.

      Daar waar je spreekt over test en validatie is het belangrijk om een goede testdekking te hebben. Je moet alle relevante gevallen meenemen in je tests. Bij gezichtsherkenning betekent dat je gezichten uit alle hoeken van de wereld moet verzamelen en voldoende van iedere bevolkingsgroep om een statistische analyse te kunnen doen of die groep soms benadeeld wordt door het systeem. Dan loop je wel tegen het wettelijke probleem aan dat je met bijzondere persoonsgegevens (ras) werkt bij jouw test of het systeem geen rassenvoorkeur heeft.

      • Rassenkenmerken voor herkennen van klanten in een lokale rollator winkel lijk me een nogal slecht idee. Je weet niet wat dat voor ongewenste discriminerende gevolgen heeft. Nog vreemde wordt het als een cultuurkenmerk ongemerkt leidend genomen wordt. Dragen van veel bling bling zou wel eens cultuur-ras gebonden kunnen zijn. Dan heeft een niet racistisch algoritme ineens racistisch gevolgen. We zien het nu met corona, de opnames komen veel uit een bepaalde hoek. Het mag als waarneming niet geuit worden want dan zou het virus racistisch aangelegd zijn. Een stof die tussen leven en dood zit en dat zou de huidskleur meenemen is geen logische gevolgtrekking uit de situatie.

        • Ja, het lijkt er op dat het Covid virus mensen die het financieel minder breed hebben harder treft. Laten we het daarbij houden.

          Ik vind het moeilijk om te zeggen dat je in een winkel geen rekening mag houden met zichtbare raskenmerken; iemand met felrood haar kun je beter een blauw dan een oranje overhemd aanraden. Een zwart pak staat goed op iemand met een licht gebruinde huid, niet zo goed bij een extreem blanke of donkere huid. Is een algoritme dat dergelijk advies geeft racistisch? En de winkelbediende die al zijn klanten zo goed mogelijk probeert te adviseren?

          Je moet ook kijken naar het gebruik van het systeem en de gevolgen voor gebruikers en (vooral) derden. Bij kleding-advies zijn de gevolgen milder dan bij fraude-detectie of gezichtsherkenning voor opsporing. Je moet bij die laatste systemen ook hogere eisen aan nauwkeurigheid en “rasongevoeligheid” in die nauwkeurigheid stellen.

          En terug naar rollators: Die goudkleurige past vast wel perfect bij die “bling bling” oudere die moeilijker begint te lopen.

          • OK het voorbeeld kwam misschien wat scheef over in een poging tekst uit te sparen 😉

            Een webwinkel in rollators wil voor haar klanten een login op basis van gezichtsherkenning maken. De winkel bakt aan de hand van de foto’s die mensen zelf maken een gezichtsherkenner in elkaar maar omdat hun klantenbestand te klein en nu eenmaal overwegend wit is merk je meteen dat die gezichtsherkenner slechter werkt voor hun minderheid donker getinte klanten. Wat mij betreft niet strafbaar, maar netto discriminerend desalniettemin, als je er dan toch dat woord aan wilt knopen (en ik wil dat eigenlijk ook nog steeds niet, maar kan ook niet om de droge logica heen).

            En nee, dat zou dus geen slecht idee zijn in die optiek; om een goed werkende gezichtsherkenner-dienst te kunnen garanderen zal het (helaas) noodzakelijk zijn, en dat schuurt inderdaad best een beetje, om de hele pijplijn en alle formules, correcties en datasets ‘identitair’ te maken. Netto maak je dus de hele pijplijn zo racistisch als wat juist zodat het eindproduct waar je gebruikers mee interfacen dat niet meer is.

            Je voorbeeld gaat dan ook niet op. Het is niet discriminerend om bepaalde groepen toegespitste koopadviezen te geven. Je dienst was daar natuurlijk ‘goede gepersonaliseerde koopadviezen geven’ en zolang elke populatie dus bijv. net zo vaak op zo’n advies klikt kun je stellen dat je voor iedereen dezelfde prestatie levert, zelfs al krijgt oma een rollator aangeboden en Shaquile een diamant/gouden grill.

            Ook met je corona-lamentatie zie ik het niet. Het is geen algoritme geweest wat bepaalde dat er meer niet-westerlingen op de IC’s liggen. Het algoritme wat jou dat inzicht verschafte was (hopelijk) gemaakt om de objectief vergaarde data onveranderd en zuiver aan jou door te geven; de data was het product. Er zit geen determinatie, verbouwing of waardeoordeel in, er komt geen nieuw product/dienst met eigen prestaties uit, dus het algoritme en de data zijn totaal niet relevant.

            En de algoritmes kunnen er niet zo veel aan doen dat jij schroom hebt om die eigenschap te constateren. Daarvoor moet je bij de diverse poo-flinging howler monkeys aan de uiteindes van het politieke spectrum zijn, en misschien een beetje in de spiegel.

        • Het probleem met die opmerking over corona-opnames is dat het een tekortdoordebochtanalyse is. De opnames komen niet uit allochtone hoek. Het is voor het virus totaal irrelevant wat iemands etnische afkomst is. Het virus treft mensen zwaarder die daar extra kwetsbaar voor zijn. Bijvoorbeeld omdat ze veel in vitale beroepen (lees slechtbetaald en slechtbeschermd) werken zoals schoonmaak. Of omdat ze door gebrekkige taalbeheersing de moeilijke overheidscommunicatie over het virus (en geef toe, dit kan duidelijker allemaal) niet begrijpen. Dát zijn dus de factoren waar je het over moet hebben.

          Het kwalijke van het aan ras wijten is dat het al snel fatalistisch wordt, tsja dat hebben allochtonen nu eenmaal. In plaats van te zeggen, we moeten wat doen aan de communicatie want we zien veel mensen met slechte taalbeheersing. En ja, ik weet dat slechte taalbeheersing correleert met allochtoon zijn maar dat is dus geen causaal verband. Genoeg Nederlanders die het óók niet snappen en genoeg allochtonen die beter Nederlands spreken dan jij en ik.

          • Het is een tekort door de bocht analyse, eens. De werkelijke oorzaak zit elders en als je tegen racisme bent zou je daar wat aan moeten doen. Nu even de gangbare aanpak om het algoritme te willen aanpassen naar een gewenste uitkomst van gelijke verdeling naar de omvang van bevolkingsgroepen. Wat je dan doet is een aantal bedden reserveren voor gekleurde mensen / mensen met migratie achtergrond allochtonen en een aantal voor blanke ofwel autochtonen de bordjes wit/zwart kunnen er zo bij. Snap je met dat voorbeeld dat ik er zo op tegen ben om iets zo te willen aanpassen in een algoritme? Je kunt het “positieve discriminatie” noemen maar fout blijft het. Je voert voor je het beseft racisme onder het voorwendsel racisme tegen te willen gaan.

            • Wat je doet, is het kenmerk van ras negeren want het is medisch irrelevant. Er is ook geen enkel ziekenhuis dat zo werkt, je voorbeeld van gereserveerde bedden is idioot.

              Het probleem met machine learning is dat dat ras ziet als leuke proxy voor de gevraagde uitkomst en er dus vrolijk op door gaat selecteren. Ook als je de kolom ras weghaalt, want dan gaat ‘ie filteren op üç in de achternaam bijvoorbeeld. (Zie Amazon dat vrouwelijke sollicitanten wegfilterde vanwege “women’s *” in de hobby’s en interessen in het cv).

              Niemand zegt of verdedigt dat het systeem een ‘gewenste’ uitkomst moet presenteren of dat de uitkomst even vaak allochtoon als autochtoon moet zijn. De volgens mij redelijke eis is dat je niet direct en niet indirect rekening houdt met ras. Dus bij die coronaslachtoffers dat je niet bezig bent met hun paspoort maar met dat ze onbeschermd vaak besmette oppervlakken aanraken. Snap je dat het raar is dat je dan zegt, laten we bedden reserveren voor mensen met een Turkse grootmoeder?

              • Het is echter technisch nog niet mogelijk om ras compleet te negeren, en dan uit te vinden wat de rassenbias in een dataset/model is. Je hebt de beschermde variabele nodig om te zien hoeveel deze door andere features is te herleiden. Dan kun je dit effect eruit halen tijdens het trainen, terwijl je de maximale accuraatheid mogelijk behoudt.

                Ik denk overigens dat ras niet compleet irrelevant is voor Covid. Donkere mensen worden onevenredig hard getroffen (donkere Brittaniers hebben 2x zoveel kans op positieve Covid test dan blanke Brittaniers). Ja, eens, dit komt door factoren uit sociale ongelijkheid (minder binding met overheid, communicatie aangepast op blanke goedopgeleide mensen, hoger aantal fysieke beroepen, en met meer mensen op een kluitje dan villa-bewoners in Wassenaar), maar mogelijk ook door medische pre-condities die vaker voorkomen bij bepaalde rassen (diabetes bv. maar de oorzaak daarvan kan verder liggen in het feit dat McDonalds de donkere mensen als doelgroep neemt). Overgewicht is direct gecorreleerd aan zwaarder COVID ziektebeeld. Overgewicht komt vaker voor bij bepaalde rassen. Vitamine D tekort is gecorreleerd aan zwaarder COVID ziektebeeld. Donkere mensen nemen minder Vitamine D op van de zon, en hebben baat bij supplementie.

                Dus vind ik dat medisch beleid en voorlichting best aangepast mag worden op ras. Overheden en ziekenhuizen worden geacht daar verantwoordelijk mee om te gaan, en daar vertrouw ik wel op.

              • Owh, daar zit een boel in je reactie. 1/ Het kenmerk van een ras zou medisch irrelevant zijn? Dat is een heel vreemde aanname voor je ideaal van gelijkheid Voor Covid is er iets dat een specifiek Neandertaler geen (blanken) zeer nadelig zou zijn. Voldoende vitamine-D schijnt betere bescherming te bieden. Nadelig voor donkere mensen, die maken vaker te weinig aan. Je kan wel zeker de stelling ophouden en zelfs bewijs krijgen dat een aandoening ras gebonden is. Een klassieker: Malaria is voor blanken kwalijker (historie kinine) https://pubmed.ncbi.nlm.nih.gov/25820030/

                2/ Het reserveren van bedden in ziekenhuizen komt we degelijk voor. Voor bevallingen zijn er aparte kraamafdelingen. Iets zegt me dat jij daar voor die aandoening geen bed zal gaan bezetten. Je kunt er wel gewoon voor verzekerd zijn.

                3/ Het is idioot om voor de bezetting van ziekenhuisbedden een afspiegeling van de maatschappij te eisen. Klopt ik nam dat als voorbeeld van een gevolg om een uitkomst van algoritme naar een gewenst ideaalbeeld van gelijkheid aan te passen. Je moet hem hebben voelen aankomen. Als we gaan zeggen dat de personeelsbezetting een afspiegeling van de maatschappij moet zijn dan vinden we dat idiote ineens wel normaal. Een niet uit te leggen tegenstrijdigheid. Je mag het proberen. Eindhoven universiteit wil alleen nog vrouwen aannemen omdat ze vinden dat er te veel mannen zijn. BIj de rechterlijke macht begreep ik dat het overwegend om vrouwen gaat. Dat mogen alleen nog mannen aangenomen worden. Idiote voorbeelden genoeg, geheel ontsprongen aan denkbeelden van mensen.

                4/ Dat Amazon voorbeeld is er een van supervised ML. Men verwijst naar dat algoritme als probleem, vreemd. Wat er gebeurt is ia dat men voorgaande trajecten nagelopen heeft en deze rare kronkel van selectieve voorkeur in het menselijk gedrag heeft vastgesteld. Een naam weglaten in het ML model is vrij eenvoudig te doen. In de supervised methodiek gaat dat niet meer goed komen, het idee daarachter is immers dat je een goed voorbeeld gebruikt vanuit goed bevonden gevallen zodat je de op de tijd van mensen kan besparen. Als de voorbeelden vanuit de mensen niet goed zijn, dan zul je eerst aan die praktijk uitgevoerd door mensen wat moeten doen. Het ML gebeuren kun je nog steeds inzetten, nu niet ter vervanging van de HR-mensen maar ter verbetering van hun werk. De terugkoppeling in de kwaliteit van het beslisproces is het belangrijkste om eerst aan te brengen.

      • Ik haalde het voorbeeld van de slechtzienden ook aan vanwege de WCAG; de publiek gedefinieerde standaard waaraan je je website objectief kunt testen en valideren en uiteindelijk trots een zegeltje op je site kunt zetten dat je er aan voldoet en dus alles in het werk hebt gesteld om slechtzienden te bedienen. Dat idee werkt juist omdat er een (vrij) heldere standaard gedefinieerd is voor de data die jouw systeem oplepelt, zonder eisen te stellen aan hoe dat gebeurd is.

        Als je uitgaat van zo’n referentie set foto’s om tegenaan te testen dan neem ik aan dat zo’n set bestaat uit foto’s van mensen die vrijwillig hun toestemming hebben gegeven voor het gebruik ervan voor dit doeleinde; dit is precies ook waarom zo’n referentiekader eerder door een NGO of semi-overheid gemaakt zou moeten worden in plaats van ieder voor zich.

  11. Voor het Amazon voorbeeld zie ik twee mogelijkheden om dit te voorkomen: Terug naar handmatig en vakkundig lezen van 1000+ CVs per functie. Mijn mening het eerlijkst, maar ook het duurst, en daarom niet te realistisch voor een ongereguleerd commercieel bedrijf. Of een specifiek vakje bij sollicitatie formulier met geslacht. Door juist specifiek te kijken naar/discrimineren op geslacht en deze mee te nemen in de beslissing, had Amazon een later gebrek in diversiteit in de HR-database kunnen voorkomen.

    GPRD verbod op volledig automatische beslissing wordt handig omzeilt door alle CVs te ranken met een machine, en dan 10 minuten aandacht aan de 1e rank, en 30 secondes voor onderop de stapel, dus dat moet toch echt strenger/specifieker wil je overlord AI beslissingen gaan bestrijden, maar ik voorzie dan pragmatisch of theoretisch erg veel problemen, die het niet echt een solide mogelijkheid maken.

    En weer bout realistisch: het kan natuurlijk perfect zo zijn dat historische data bij Amazon aantoont dat vrouwelijke engineers het slechter doen. Je kan dan allemaal redenen bedenken, al dan niet voorkomend uit geslachtsdiscriminatie, maar effecten als deze kunnen best blijven bestaan, zelfs al heb je 50%-50% geslachts quota van engineers. Ja natuurlijk, doen vrouwen het beter met 100% vrouwelijke engineers :), maar welk bedrijf neemt die beslissing? En is dat een experiment dat je kunt verantwoorden aan de huidige mannelijke kostwinners? Z’n vrouw op cursus en hij met de pasgeboren baby? Oudere mannen zouden dan weer gediscrimineerd worden op leeftijd. En ook misschien wel redelijk, want welke groei en kennisopname verwacht je nou van een 50-jarige database beheerder vs. een 24-jarige?

  12. Oudere mannen zouden dan weer gediscrimineerd worden op leeftijd. En ook misschien wel redelijk, want welke groei en kennisopname verwacht je nou van een 50-jarige database beheerder vs. een 24-jarige?

    Is het doel voor de werkzaamheden: – dat de uitvoerende zoveel mogelijk persoonlijke kennis opdoet of – dat de betreffende werkzaamheden zo correct mogelijk in met een kosten efficiënt overweging uitgevoerd worden? Het eerste zie ik als opleiding het tweede als weken voor een organisatie met een missie. Bedankt voor het wegzetten van ouderen. Wat je verantwoord kan doen leer je met de tijd. Fouten maken, fouten herstellen ervaring opdoen kost tijd. Waarom jongeren de zelfde soort fouten moeten maken welke voorkomen hadden kunnen worden daar wat attenter op de risico’s te zijn is nog een te bouwen AI model

Laat een reactie achter

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren en <em> en <strong> voor italics en vet.

(verplicht)

Volg de reacties per RSS