Klacht bij mensenrechtencollege voor discriminerende antispieksoftware

De software Proctorio herkende Vrije Universiteit-student Robin Pocornie volgens haar niet omdat ze zwart is, las ik bij NRC. Waarom die slag om de arm weet ik niet, want als het probleem opgelost is als je je huid extra bijschijnt dan lijkt de huidskleur me evident de oorzaak. En het is een bekend verhaal: heel veel AI-gebaseerde gezichtsherkenning is alleen getraind op witte mannen en geeft dus allerlei problemen. Pocornie dient nu een klacht in bij het College voor de Rechten van de Mens (CvdRM).

Het achterliggende verhaal is vast bekend: door corona stapten universiteiten over naar toetsing op afstand, en vanwege angst voor fraude is massaal gekozen voor proctoring, iedereen moet thuis z’n webcam aanzetten en een AI controleert of je fraudeert. Daar vond ik al eens wat van, maar de rechter oordeelde (in hoger beroep) dat proctoring in principe moet kunnen.

Bij die uitspraak (van de UvA) kwam nooit aan de orde dat het systeem wel eens slecht zou kunnen werken, en dat dat met name zou spelen bij minderheden. Ik ben ergens verrast dat daar geen aandacht aan is gegeven in de tests.

Toevallig vond ik een tijdje terug een artikel in Motherboard over iemand die Proctorio uit elkaar had gehaald en ontdekte dat de basis voor de software het opensourcepakket OpenCV is. Dit is een bekende set libraries voor objectherkenning (voor AI zijn wij objecten). Maar diverse tests laten zien dat het niet goed werkt:

Satheesan tested the models against images containing nearly 11,000 faces from the FairFaces dataset, a library of images curated to contain labeled images representative of multiple ethnicities and races. The models failed to detect faces in images labeled as including Black faces 57 percent of the time. Some of the failures were glaring: the algorithms detected a white face, but not a Black face posed in a near-identical position, in the same image.
Onduidelijk is hoe de VU heeft gereageerd op de klacht van de student, anders dan „ten zeerste te betreuren dat de student stress heeft ervaren door de inzet van het systeem”. Ik zou bijvoorbeeld de DPIA van dit systeem wel eens willen lezen.

Wat ik zo frustrerend vind aan dit soort dingen: het moet altijd eerst een keer of wat misgaan voordat iemand zegt, dit klopt niet. Want je moet als inkoper maar net op het idee komen dat je dit moet testen. Studenten klagen altijd, dus daar kijken we niet naar. En als je op internet wat vindt hierover, dan heeft de salesmedewerker vast een prachtig antwoord paraat.

En dan blijft het daarna lang stil, want de meeste studenten willen gewoon hun tentamen halen en dus geen gedoe veroorzaken met zulke rechtszaken of klachtprocedures. Dan maar een dikke lamp op je gezicht richten en er het beste van maken, nadat je al later was gestart omdat het systeem je niet herkent en de persoon aan de telefonische helpdesk alleen kan zeggen “ga dichter bij de camera zitten” of “misschien is het te donker in uw kamer”. Ja, daar kan ik me aan ergeren.

Update: de VU reageert, “[e]r is in dat onderzoek geen aanwijzing gevonden dat de software daadwerkelijk discrimineert” en dat de leverancier hen verzekert dat alles in orde is. Concrete weerleggingen van bijvoorbeeld het onderzoek van Motherboard kan ik niet vinden.

Arnoud

 

26 reacties

    1. Pardon? Ik citeer onderzoek dat laat zien dat dit een structureel probleem is in de onderliggende ML library, inclusief plaatje. De VU komt niet verder dan “Er is in dat onderzoek geen aanwijzing gevonden dat de software daadwerkelijk discrimineert” en dat de leverancier wijst op het gebruik van meerdere libraries, echter zonder bewijs. Dan vind ik het journalistiek gerechtvaardigd om op de klacht af te gaan.

      1. Wat journalistiek gerechtvaardigd is ga ik niet over. Wel vind ik dat journalistiek nogal graag op gevallen springt om die uit te lichten in de hoop dat ze een nieuw schandaal kunnen ontdekken. Wat dan gesteld wordt is meteen de waarheid, totdat de ander (Proctorio in dit geval) het tegendeel bewijst.

        Als Proctorio ook concreet in 57% van de gevallen donkere mensen niet zou detecteren is het vreemd dat daar zo weinig klachten van zijn binnengekomen. Of worden die allemaal onder het tapijt geschoven?

        Ik mis in dit soort berichtgeving nagenoeg altijd een flinke dosis nuance. Hoe het wordt gebracht is zeer relevant voor de gemiddelde lezer.

        1. Met alle respect Henk, in de Amerikaanse media was dit in ’20 en ’21 ook al lang een topic [voorbeeld: 1, via Google News makkelijk veel voorbeelden te vinden]. De horde voor een formele klacht is ook ontzettend hoog. Daarom vind ik de publieke klacht dapper. Zo publiek uitspreken is ook je nek uitsteken voor de hordes trolls. Daarnaast staat universiteiten bij mij niet bekend als de meest integere organisaties die goed om kunnen gaan met openbare kritiek. Dus dat je in de Nederlandse context van enkele duizenden geraakten komt tot één klacht zie ik meer als functie van de filter van het risico dat je neemt.

          [1] https://www.technologyreview.com/2020/08/07/1006132/software-algorithms-proctoring-online-tests-ai-ethics/

      2. Ik zie Henk’s punt wel. Er is 1 student die klaagt dat de software bij haar niet werkte. En zij BEWEERDE dat dat was vanwege haar huidskleur, terwijl de leverancier dat ontkent.

        Tegen haar spreekt dat er ook andere redenen kunnen zijn (slechte verlichting, slechte kwaliteit camera, botte pech, technische storing)

        Voor haar spreekt dat iemand ooit een onderliggende module uit elkaar geeft gehaald en getest heeft met slechte resultaten (zegt niet zoveel: Proctorio kan getraind zijn met aanvullende data, de onderliggende module kan in de tussentijd verbeterd zijn, Proctorio kan aanvullende algoritmes gebruiken om een nadeel dat zwarte mensen hebben te compenseren, de test kan (bewust of onbewust) slecht uitgevoerd zijn)

        Voor haar spreekt ook dat het een bekend probleem is (geweest) dat zwarte mensen slechter herkend worden/werden, hoewel onbekend is of dat bij Proctorio ook zo is.

        Je maakt natuurlijk zelf je journalistieke afwegingen, maar ook ik vind de aanwijzingen wat dun om zo overduidelijk de kant te kiezen dat er waarschijnlijk wel iets mis is met die software.

        Dat neemt niet weg dat ik de stress en het onbehagen bij die persoon wel begrijp, dergelijke software moet gewoon goed werken, maar ik vind dat je terughoudend moet zijn met het roepen van ‘discriminatie’. Dat is een zware beschuldiging! Als ik de verantwoordelijke voor Proctorio was bij de VU zou ik wel wakker liggen van zo’n beschuldiging.

  1. Het verhaal heeft een verrassende kant. Eigenlijk zou je mogen verwachten dat onwikkelaars van software opgegroeid zijn in een tijdperk waar het intussen normaal was, dat niet alleen de witte man (en iets later) ook de witte vrouw naar school mocht en mocht gaan studeren, maar ook alle andere mensen in onze samenleving dit recht hebben. De indruk die ik bij dit soort verhalen altijd krijg is, dat iemand verrast is, dat iedereen het recht heeft te leren en te studeren (of te werken, te feesten etc.). Juist van de moderne ontwikkelaar zou ik verwachten, hier veel allerter op te zijn. En het is beschamend voor de bedrijven die dit soort software ontwikkelen. Ze herinneren een beetje aan de Amish, leven welliswaar in de 21. eeuw, maar gedragen zich alsof het noch 1850 is.

      1. Ja dit waarschijnlijk. Gewoon een stuk of 6 collega’s van de afdeling voor de webcam gezet en aangegeven dat ze moeten doen alsof ze een toets maken. En dan kijken of spiekgedrag kan worden herkent.

        En dat dat vooral mannen met baarden zijn, tsjah, dat was de test toch niet?!? 😉

  2. Het probleem van huidskleur is eigenlijk al vrij lang bekend en heeft vooral met licht en contrast te maken. Op een lichte huid zijn schaduwen goed zichtbaar en krijg je duidelijke lijnen te zien waardoor je een gezicht kunt herkennen. Bij een donkere huid vallen deze schaduwen minder goed op en is het contrast een stuk minder. Je moet dan meet met een tegenover gestelde techniek werken, namelijk highlights. En die krijg je door extra belichting toe te passen.

    Dit is waarom de meeste fotomodellen een lichte huidskleur hebben en dan vooral waar men ook gelaatsuitdrukkingen wil laten zien. Denk hierbij ook vooral aan films en TV series. Een donker model wordt meer gebruikt in de modewereld, waar men meer de focus legt op de kleding en dus de lichaamsvorm, terwijl de modellen zonder emoties erbij staan of lopen. Op de catwalk zul je dan ook alle huidskleuren voorbij zien komen.

    Maar het probleem is niet alleen dat de camera moeite heeft met donkere huidskleuren, maar het menselijke oog heeft een vergelijkbaar probleem. We zien gelaatsuitdrukkingen een stuk eenvoudiger op een lichtere huid. Bij een donkere huid moeten we meer kijken naar de ogen en de mond en is de rest eigenlijk een stuk lastiger te zien, tenzij de belichting erbij uit de juiste hoek komt. De foto van de twee vrouwen in dit artikel laten dit ook mooi zien. De donkere ogen en het gebrek aan een glimlach zorgen dat de donkere dame meer een zwarte vlek vormt. Mensen met slechte ogen zullen daar weinig meer kunnen zien dan een donkere vlek. Dat de AI daar ook moeite mee heeft is dan best begrijpelijk…

    Maar hoe is dit dan op te lossen? Zoals gezegd, highlights. Betere verlichting op het gezicht zou het voor de AI een stuk eenvoudiger maken. Voor de student zelf zijn er ook enkele opties om haarzelf beter herkenbaar te maken. Het vereist alleen het gebruik van make-up om een betere lichtreflectie in haar gezicht te krijgen.

    Een voorbeeld is bijvoorbeeld Khoudia Diop, een model uit Senegal die bekend staat om haar extreem donkere huidskleur. Op Instagram is ze goed te zien en dat zou een mooie dataset kunnen zijn om een AI op te trainen. Een foto zoals deze laat al snel zien hoe lastig het kan zijn om een gezicht duidelijk te zien. Ik zie haar wel, maar mijn moeder van 80 met haar slechte ogen ziet alleen een donkere vlek.

    Dat de camera van de student dus mogelijk een te lage kwaliteit heeft om een herkenbaar (donker) gezicht te filmen is dus ook een mogelijke oorzaak. Want die camera zijn de ogen van de AI. Een betere camera voor deze student zou een optie kunnen zijn… (Eventueel met infrarood?)

    1. Als er eisen aan de camera worden gesteld is het dan niet aan de onderwijsinstelling om deze vooraf kenbaar te maken aan alle studenten? Ik kan me niet voorstellen dat een lamp in je gezicht moeten schijnen om door de software te komen positief kan zijn voor het resultaat, op zijn minst zorgt het voor een extra stuk hinder/afleiding tov de andere studenten.

      Ook benieuwd hoe de onderwijsinstellingen hiermee om gaan als blijkt dat de software niet goed functioneerde. Dit aangezien je de kennis van de student wilt testen mbt het onderwerp van de toets en niet hoe snel ze door de betreffende software komen.

      1. Het stellen aan eisen aan de camera zorgt ook weer voor problemen. Niet elke student zal het zich kunnen veroorloven om een nieuwe camera aan te schaffen (zeker tijdens de lockdowns, toen het voor veel studenten niet mogelijk was inkomen te vergaren via een bijbaan). Het is natuurlijk ook bijzonder kwalijk indien een dergelijke last enkel wordt opgelegd aan studenten van kleur om het onderwijs te kunnen volgen waar ze recht op hebben. Aan de andere kant is het opleggen van eisen aan de webcam van alle studenten weer disproportioneel.

        M.i. is het aan de leverancier om dit op te lossen en aan de universiteit om zich beter van de kwaliteit en (on)kunde van de software te vergewissen. Dit probleem hoort niet bij de student neergelegd te worden.

      2. De vraag is vooral ook of iedere student wel een webcam heeft die goed genoeg is qua kwaliteit. Of dat de camera op hun mobiel wel van goede kwaliteit is. Er zullen sowieso bepaalde eisen aan gesteld kunnen worden. Maar ook de ruimte waar een student zit tijdens de test is belangrijk. Velen vinden het prettig om in een beetje donkere plek te zitten omdat het scherm best wel veel licht geeft. Maar ook omdat ze last kunnen hebben van licht dat in het scherm reflecteert. En een donkere student in een donkere kamer maakt het dan al snel lastig voor een camera. Maar een lichte student met een groot raam achter haar waar de volle zon op staat zal ook een uitdaging zijn voor de camera. Maar goed, we zouden ook nooit dit soort experimentele technieken zijn gaan gebruiken als COVID er niet was geweest. Want dat dwong uiteindelijk tot het gebruik van deze oplossing, terwijl deze nog niet 100% goed werkt.

    2. Helemaal eens. Ik geloof wel dat de software niet actief discrimineert; er zal geen if’je in de code zitten die iets doet als if ($huidskleur != ‘white’) { doRacism(); }, maar dan nog kan het resultaat natuurlijk wel discriminerend zijn als iedereen met een blanke huidskleur wel door de toets heen komt en iedereen met een andere huidskleur niet.

      Het is dus wellicht geen programmeerprobleem, maar een natuurkundig probleem waar je dan met software maar het beste van moet zien te maken, als je per se gezichtsherkenning wil doen.

      Maar hoe is dit dan op te lossen? Zoals gezegd, highlights. Betere verlichting op het gezicht […]

      Of toch de conclusie trekken dat dit niet goed werkt. En ofwel je toetsen daarop aanpassen (meer werkstukken, minder multiple choice), of toch gewoon weer naar de schoolbankjes. In 2+ jaar tijd moet je toch de nodige ventilatie en HEPA-filters en what-not in je tentamenruimtes hebben kunnen installeren om langzaamaan zo’n airborne virus de baas te kunnen zijn.

    3. Helemaal waar. En vaak hebben die camera’s ook nog een functie voor automatisch contrast. Dat gaat ook makkelijk mis. Dat heb ik wel eens gehad over teams met een donkere collega. Er was zonlicht vanuit het raam achter hem en ik kon bijna alleen zijn ogen herkennen. Met een gordijn / draai van de camera was dit redelijk snel opgelost, maar helaas is dit wel iets dat meer speelt bij mensen met een donkere huidskleur. Er zijn problemen met het trainen vanuit beperkte datasets (te goede camera’s/verlichting/te veel witte mensen), maar ook technische beperkingen die echt vanuit natuurwetten komen (niet vanuit camarasensorontwikkelaars). Het verhaal van de proctoringsoftware waar de kans op fouten groter is bij mensen met donkere huidskleur is dus waarschijnlijk (als je naar de onderliggende techniek kijkt). Een “proefsessie” lijkt me geen slecht idee (zodat het testen/instellen van de software minder invloed heeft op echte examens). Mijns inziens zij er een aantal opties: – De software helemaal niet gebruiken omdat de kans op fouten niet gelijk verdeeld is – Een belangenafweging. Zo’n belangenafweging begint vanuit het proberen de ongelijkheid te minimaliseren. Dan ten tweede een fatsoenlijk exceptie systeem (niet een helpdesk die zegt probeer het nog eens) dat escaleert tot verschillende niveaus, inclusief een menselijke beoordeling. In deze is het doel van de software als antispieksoftware relevant aangezien het uiteindelijk het belangrijkst is dat een eerlijke student het examen kan afnemen zonder van oneerlijk gedrag beschuldigd te worden. Er zijn overigens vanuit andere hoeken (waar ook vaak geen proctoringsoftware gebruikt is) signalen van uitgebreid valsspelen en dit is ook zichtbaar in de gemiddelde cijfers. Even een vriend/Google vragen lijkt vrij normaal geweest te zijn.

      1. Zo’n belangenafweging begint vanuit het proberen de ongelijkheid te minimaliseren.

        Dan zou het zomaar kunnen dat je uitkomt op 20% mensen van alle kleuren die herkenningsproblemen (en dus tentamennadeel) krijgt, ipv 5% voornamelijk zwarte mensen.

        Een technisch inferieur product dus: slechter in herkennen.

        Dan moet je jezelf de vraag stellen: Wil je 20% onschuldigen treffen ipv 5% onschuldigen omdat het nadeel dan eerlijker verdeeld is? Ik heb daar voor mezelf geen antwoord op.

  3. Ook absurd, de meeste van die gezicht-herkenningstools zijn niet in staat om een zwart persoon van een aap te onderscheiden. Daarom maar dat bedrijven zoals Google en Facebook maar gewoon preventief geen primaten taggen;

    https://www.theverge.com/2018/1/12/16882408/google-racist-gorillas-photo-recognition-algorithm-ai

    Ik wil niet gaan roepen dat dit “institutioneel racisme” is (Er zijn al genoeg groepen in dit land die hun eigen glazen in gooien met zulke termen)… maar ik vindt dat wel genoeg rede om zulke techniek als experimenteel te bestempelen. Daarom is het in mijn ogen dan ook niet acceptabel voor het gebruik bij examens en zo.

    1. Daarom is het in mijn ogen dan ook niet acceptabel voor het gebruik bij examens en zo.

      Jammer alleen dat de techniek altijd experimenteel zal blijven, ook al is deze al behoorlijk verbeterd sinds dat artikel uit 2018. En dat incident uit 2015.

      Maar dan kijk ik naar de originele foto zoals deze is bewaard door een andere website en dan begrijp ik wel dat een slecht getrainde AI hier een gorilla ziet waar ik toch echt een persoon zie. Wel iemand met een brede neus, brede mond en een donkere huidskleur. Wat een gorilla dus ook heeft. Dus als je een mens definieert als een object met een smalle neus en mond en een gorilla als een brede neus en mond… Tja…

      De problemen met dit soort AI zijn ook hier te vinden. En dat de AI het verschil niet ziet tussen een Chihuahua of een muffin is komisch. Dat de AI denkt dat Aziatische personen met hun ogen knipperen is dan weer wel zorgwekkend. En ook deze website staat vol met AI foutjes.

      Ik moet daarbij ook denken aan Google Goggles, waarmee je foto’s kunt nemen en Google vertelt dan meer over waar je een foto van genomen hebt. Ondertussen is die alweer weg, hoewel je nu Google Lens in je Chrome browser kunt gebruiken. Maar goed, ondertussen kun je ook rondkijken in de Artificial Intelligence Incident Database en zien hoe vaak AI eigenlijk de fout in gaat en wat er dan fout gaat.

  4. Als docent heb ik ook te maken gehad met geproctorde examens en was er vorig jaar een student die elk tentamen niet herkend door de software. Die heb ik elke keer handmatig goed moeten keuren. Maar dit was wel een blanke student, dus discriminatie op huidskleur zal geen rol hebben gespeeld. Ik geloof niet dat je meteen van discriminatie kunt of mag uitgaan als zoiets vervelends gebeurt bij een één donker gekleurde student. Ik weet niet welk onderzoek de VU heeft uitgevoerd, maar als dit alleen bij Robin Pocornie misging zijn er nog vele alternatief mogelijke oorzaken dan discriminatie.

    Wat er bij de VU wel misging is dat deze controle vooraf gedaan werd en met “computer says no” de student geen tentamen kon maken. Er is geen enkele reden waarom de student niet sowieso aan het tentamen had kunnen deelnemen en je achteraf de door de AI niet herkende gevallen handmatig nog kon nalopen. Als dan iemand anders voor de camera zit kun je de student alsnog een 1 geven (cq straffen voor fraude). In mijn geval weet de student die consequent niet herkend werd waarschijnlijk niet eens dat dit zo was, want zij merkte er niet zoveel van (anders dan dat alle cijfers iets later gepubliceerd werden ivm deze controle).

    Dit verhaal doet mij ook denken aan de reactie van mijn echtgenote die een jaar veel moest vliegen. Bij letterlijk elke controle op Schiphol (elders niet), tientallen keren op rij, werd zij eruit gepikt voor een extra controle. Maar zij is blond en blank en dacht dus nooit aan discriminatie, maar was vooral geïnteresseerd in de technische reden die ervoor zorgde dat zij iets triggerde. Het leven wordt er niet leuker op als je elke keer dat je door niet direct verklaarbare oorzaak slechter behandelt wordt dan de gemiddelde andere persoon meteen aan discriminatie gaat denken.

  5. Een vertaalprobleempje: ‘white men’ wordt vaak in Nederland vertaald naar witte mannen, terwijl het correct zou zijn om blanke mannen te kiezen. De enige witte man die ik kan noemen is Pierrot, maar die is wit omdat hij zo gesminkt is.

      1. Je zegt dat alsof het een absoluut gegeven is, dat altijd van witte mensen wordt gesproken in die context. Dat is pertinente onzin; zelfs de link die je post is het niet met je eens:

        Bewuste keuze voor wit Sommige media kiezen sinds (ongeveer) 2016 bewust voor wit in plaats van blank als benaming voor de ‘roze’ huidskleur: de witte bevolking, witte boeren in Zimbabwe. Deze keuze valt op. Dat is een normaal verschijnsel als een woord anders wordt gebruikt dan lange tijd gebruikelijk is geweest. In dit geval geldt dat extra sterk doordat de keuze voor wit of blank verweven is met politiek gevoelige thema’s. Of wit op termijn wel of niet breed geaccepteerd wordt als vervanger van blank, zal de tijd uitwijzen.
      2. De reden dat ik dit blog al wat jaren lees is omdat het ICT zaken in een juridische context in het Nederlands behandelt en dat vind ik interessant. Zodra daar politiek bij on de hoek komt kijken wordt dat minder.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.