Hoe bewijs je dat je antispieksoftware die lijkt te discrimineren, dat in feite niet doet?

Een student is erin geslaagd voldoende feiten aan te dragen voor een vermoeden van algoritmische discriminatie, zo maakte het College voor de Rechten van de Mens vorige week bekend. Haar klacht van afgelopen juli kreeg veel aandacht omdat dit zeer zelden gebeurt: de gezichtsdetectieroutine van de antispieksoftware herkende haar aanwezigheid niet, wat haar tentamentijd en stress kostte. Een technisch probleem of discriminatie? We gaan nu horen wat er aan de hand was.

De kern van het probleem is dat antispieksoftware Proctorio deze studente regelmatig niet in beeld herkende (‘face not found’ of ‘room too dark’). Dat leidt tot vertraging en tijdverlies, wat bij een tentamen natuurlijk bepaald ongewenst is. Er is academisch onderzoek (onder meer deze, nonacademisch maar verhelderend is dit onderzoek) dat aantoont dat gezichtsdetectiesoftware over het algemeen slechter presteert op personen met een donkere huidskleur, zodat je goed zou kunnen vermoeden dat dat hier ook speelt.

In een “Statement naar aanleiding berichtgeving Volkskrant” (een titel waar ik gewéldige jeuk van krijg) legde de universiteit destijds uit:

Er is door de faculteit onderzoek gedaan naar aanleiding van de klacht van student van mei 2022 maar er is geen aanwijzing gevonden dat student bij de vijf toetsen in haar klacht meer technische belemmeringen heeft ondervonden dan andere studenten van de inzet van Proctorio. Bij de VU zijn geen andere klachten van vergelijkbare aard door studenten gemeld. Proctorio heeft ons meermalen verzekerd dat er geen verschil is tussen mensen met een donkere of een lichtere huid bij het gebruik van de software.
Het College kan niet zo veel met die cijfers van de VU, naast dat het externe onderzoek van Proctorio niet openbaar is:
Zo is bijvoorbeeld de gemiddelde inlogtijd van andere studenten niet onderzocht. Daarnaast is het de vraag of deze andere studenten zich in vergelijkbare omstandigheden bevonden als de vrouw.
De VU krijgt nu tien weken om aanvullend bewijs te achterhalen waaruit blijkt dat zij geen indirect onderscheid naar ras heeft gemaakt. Dat is dus de juridische frase die in de pers wordt vertaald naar “niet discrimineert”, maar “indirect onderscheid” is wel een stukje breder. “Discriminatie” betekent gewoonlijk dat je bewust – vaak vanuit een superioriteitsgevoel – mensen negatief bejegent op basis van kenmerken zoals ras, geloof of seksuele voorkeur.

“Onderscheid” is een bredere term, die erop neerkomt dat mensen uit een bepaalde groep slechter behandeld worden of meer gedoe hebben. Maar het doet er dan niet toe of jij daar de intentie toe had, zeker bij “indirect” onderscheid. Een voorbeeld van indirect onderscheid is het weigeren van honden in een restaurant – dat treft blinden veel vaker dan ziende mensen. Dat verbod is dan met de beste bedoelingen (hygiëne, rust) maar kan dus niet zonder een uitzondering voor hulphonden, die dan op hun beurt weer rustig onder tafel moeten kunnen blijven.

Ik geloof zelf geen seconde dat de VU bewust dacht “mensen van kleur verdienen gedoe bij hun tentamens”. Dus “discrimineert men” is niet de juiste vraag. De kern is “zorgde inzet van Proctorio voor meer gedoe bij deze groep dan bij de groep witte mensen” en het antwoord daarop lijkt “ja” te zijn. Dus nu moet de VU hetzij aantonen dat andere groep net zo veel mensen met gedoe hebben hetzij dat het gedoe toch niet te maken heeft met huidskleur.

Een meelezende tweaker suggereerde dat veel studenten (ongeacht afkomst) webcams met veel te lage kwaliteit gebruiken dan wel niet weten hoe deze op te stellen, waardoor detectie natuurlijk óók heel slecht gaat. Dan zou het dus eerder de factor “armoede” dan wel “noob die geen onderscheid weet tussen een aardappel en een Logitech C920” zijn. Het zou me verbazen gezien de algemene bewijzen die juist wél wijzen op huidskleur als factor, maar we gaan het meemaken.

Arnoud

21 reacties

  1. Een meelezende tweaker suggereerde dat veel studenten (ongeacht afkomst) webcams met veel te lage kwaliteit gebruiken dan wel niet weten hoe deze op te stellen, waardoor detectie natuurlijk óók heel slecht gaat. Dan zou het dus eerder de factor “armoede” dan wel “noob die geen onderscheid weet tussen een aardappel en een Logitech C920” zijn.

    Dat is toch nog steeds de verantwoordelijkheid van de universiteit? Als er een bepaalde kwaliteit webcam nodig is dan moet de universiteit die maar voorschrijven (net als er boeken worden voorgeschreven), of de webcams zelf aan studenten leveren, etc.

    1. Een bepaalde webcam voorschrijven wordt dan net als andere computer-gerelateerde voorschriften “Een webcam die zo goed is dat zus-en-zo software draait.” Of gezeur om een specifieke webcam die veel te duur is voor het doel. Daar heb je helemaal niets aan; zeker omdat 90+% van de webcams wel voldoen.

      In de praktijk kopen studenten, verstandig als ze zijn, ook niet een laptop die aan de hoge eisen van de universiteit voldoet (die alleen nodig zijn als je een bepaalde subspecialisatie in het laatste jaar gaat doen); dus het zal ook geen effect hebben op welke webcams gebruikt worden, maar alleen als excuus gebruikt kunnen worden door de universiteit om de schuld bij studenten te leggen. (Doen ze toch wel, zoals blijkt, maar goed.)

  2. ‘Bewijzen’ dat de software geen onderscheid kan natuurlijk nooit. Laten zien dat in bepaalde testomstandigheden de software geen meetbaar onderscheid maakt op basis van kenmerk A is het beste wat je kunt verwachten.

    Maar ja, dan zie je de problemen al opduiken: naast kenmerk A zijn er nog tientallen of honderden kenmerken waarop de software theoretisch onderscheid ZOU kunnen maken (Arnoud noemt er al twee). Het is onmogelijk om die allemaal na te gaan.

    Waarom zou je niet geloven dat de grote, internationale leverancier van de software stelt: ‘we hebben het onderzocht en er is geen discriminatie’, maar wel als de VU met haast, in 10 weken, buiten haar kerncompetenties, een (waarschijnlijk minder goed) onderzoek opzet dat besluit tot ‘geen discriminatie’?

    1. De Nederlandse overheid zegt ook niet te discrimineren; maar als we kijken naar de kinderopvangtoeslagaffaire blijkt dat toch anders te liggen. Ook een “grote bekende” leverancier moet op verzoek zijn stelling dat de software niet discrimineert kunnen onderbouwen. Ze moeten laten zien wat en hoe ze getest hebben op dit vlak.

    2. Waarom zouden we welke organisatie (groot of klein, internationaal of niet) überhaupt op hun blauwe, bruine, groene, of welke-kleur-dan-ook ogen geloven? Sinds we weten dat Shell en Exxon decennia lang gelogen hebben over klimaatverandering, weten we dat ook grote, internationale organisaties kunnen liegen dat het gedrukt staat.

      Daarom vind ik: heb je onderzoek gedaan? Laat maar zien. Discrimineert jouw software niet? Prima, laat je bewijs maar zien.

      1. Ten eerste zeg ik niet dat we grote organisaties moeten geloven, ik zeg alleen dat ik niet zie waarom we de universiteit WEL moeten geloven en de leverancier NIET.

        Ten tweede zie ik niet in hoe de universiteit in 10 weken een gedegen onderzoek kan doen.

        Ten derde moeten ze iets bewijzen dat fundamenteel onbewijsbaar is, namelijk dat het programma iets NIET doet.

        Ten vierde, zelfs al hebben ze heel aannemelijk gemaakt dat het programma een bepaald ding niet doet, dan zijn er nog honderden andere dingen die het programma zou kunnen doen en die net zo erg zijn, en die dan ook onderzocht zou moeten worden. Kortom: wat je van de universiteit vraagt is een levenswerk, van een heel team van onderzoekers.

        En jouw zin ‘sinds we weten dat Shell en Exxon decennia lang gelogen hebben over klimaatverandering’, daar kan ik al helemaal niets mee.

        ‘We’ weten dat ik niet, ik in ieder geval niet.

        En wat is ‘liegen over klimaarverandering’? Een leugen gaat meestal over een concreet (vermeend) feit. Welk feit heb je het over? En waar zie je dat ze gelogen hebben? En hoe hebben ze dat decennialang gedaan?

        En hoe hoeft dat te maken met andere organisaties? Zelfs als Shell en Exxon gelogen hebben, vertrouw je dan geen enkele organisatie meer, ook niet het rode kruis of greenpeace (alsof die nooit gelogen en gemanipuleerd hebben, zie het Brent Spar verhaal)?

        Je kunt als maatschappij van alles eisen, maar als alles wat professionals op basis van professionaliteit doen (volgend uit de fouten van vele generaties voorgangers) nog eens een keer bewezen moet om ieder individu tevreden te stellen, en uitlegd zodat ieder individu het kan snappen, dan kunnen we als samenleving wel ophouden.

        We hebben professionals om professioneel dingen op te lossen. Ten eerste letten die er tijdens de ontwikkeling van de software op dat de software niet discrimineert. Dat is hun vak om dat soort aspecten mee te nemen bij de ontwikkeling. Dan hebben ze het (blijkbaar) nog eens een keer getest of die software niet discrimineert, waaruit bleek dat dat niet zo was.

        En dan komt er een studentje en die zegt ‘ik geloof het niet’ en die krijgt het gerechtelijke apparaat achter zich, met als enige argument bij mij werkte het programma slecht.

        Ik krijg daar kriebels van.

        1. Eh, er is wel iets meer bewijs geweest dan een “studentje” die zielig kijkt en klaagt dat het niet werkt. Ik haal zelf hierboven wetenschappelijk onderzoek aan en diverse visuele vergelijkingen die duidelijk maken dat er iets geks gebeurt als je geen wit gezicht hebt.

          Het is mijn professionele overtuiging dat AI-gedreven technieken om mensen te beoordelen eigenlijk altijd Haarlemmerolie zijn: klinkt leuk, werkt aardig in de simpele standaardsituatie maar daarbuiten is het nooit getest en richt het schade aan, alleen die zien wij niet omdat de beoordelaars in de standaardsituatie zitten. Of dat nou gaat om studenten betrappen op spieken, werknemers volgen of beoordelen van uitkeringsfraude.

          1. Arnoud, ik heb ook heel wat vraagtekens bij AI software om mensen te beoordelen. Maar ook menselijke beoordelaars maken fouten daarin. Dat is erg, maar het is niet erger dat een een AI dat doet dan dat een mens dat doet.

            Ik ageerde vooral tegen het feit dat werkbij (bewust?) mijn eerdere bericht verkeerd interpreteert, om dan nog een (ongefundeerde, en ook nog eens niet relevante) sneer naar de olie-industrie in het bericht te shoe-hornen, en daar dan ook nog eens een ongefundeerde conclusie uit te trekken.

            Dat ‘studentje’ was misschien overdreven, maar aan de andere kant: Wat zeggen jouw referenties naar onderzoeken? Die zijn ‘oud’: Als jij die onderzoeken kent, dan kennen Proctorio en de VU die ongetwijfeld ook, en zullen ze die ongetwijfeld integer hebben meegewogen in hun beslissingen en hun softwareontwikkeltraject en tot de conclusie zijn gekomen dat de in het verleden gedetecteerde defecten inmiddels verholpen zijn.

            Of denk je dat Proctorio weet heeft van die onderzoeken en toch de software niet aanpast maar lekker laat discrimineren en dat de Universiteit weet heeft van de discrminatie-twijfels die aan de software hangen maar denkt ‘zal me worst zijn’ ipv die issue grondig met Proctorio uit te klaren?

            Naar mijn mening is de universiteit veels te nerveus over spieken en willen ze het veel te hard 100% afdekken. Het risico om gepakt te worden, en het feit dat als je de stof niet kent spieken ook niet veel helpt, en het inschakelen van een derde persoon wel eens averechts kan werken (wellicht kent die het nog slechter dan jij, dat risico wil je niet lopen, toch?), zijn voor 99% van de studenten voldoende om het niet te doen. En die 1%… ach laat die. Die vallen wel door de mand bij een volgend tentamen of een practicum of een afstudeeropdracht, of desnoods bij hun eerste baan.

            Wat mij betreft zou dat soort software niet eens moeten/mogen bestaan of nodig moeten zijn. Dat zou ik de universiteit willen verwijten. Niet het feit dat de universiteit niet kan bewijzen dat de software niet discrimineert.

  3. Voor de regel dat er geen honden in het restaurant mogen komen, is er een uitzondering gemaakt voor hulphonden om deze problemen te voorkomen.

    Ik had in een van de artikelen gelezen dat de Universitieit ruim van te voren (ik dacht een week) Proctorio beschikbaar had gemaakt zodat studenten konden testen of zij problemen ondervonden. Voor studenten die problemen ondervonden was er de mogelijkheid om alsnog naar de universiteit te komen en daar op de “normale” manier het tentamen te maken. Gewoon in een zaal met een toezichthouder.

    Wanneer is een uitzondering of vangnet niet goed genoeg om dit soort onrechmatig onderscheid te vermijden? Ik zou indenken dat er dan gekeken wordt naar het verschil tussen de standaard optie en het vangnet.

    Blanke studenten hoeven niet naar de universiteit te reizen, terwijl studenten die problemen hebben met Proctorio door hun huidskleur dat wel moeten doen. Maar mijn gevoel zegt dat je niet elke ontwikkeling moet tegenhouden totdat het compleet neutraal is en dat het dus een afweging moet worden tussen hoe bewust of problematisch het onderscheid is aan de ene kant en de extra “last” aan de andere kant.

    Denk bijvoorbeeld aan de volgende situaties.

    • Om te voorkomen dat de geleide hond personeel laat struikelen, moeten blinde personen zitten aan de tafelen helemaal achterin de hoek van het restaurant.

    • De gangpaden in een winkel zijn te smal voor mensen met een scootmobiel / rolstoel of ernstige obesitas. Deze mensen kunnen voor in de winkel blijven wachten terwijl het personeel de artikelen pakt die zij zoeken.

    • Een winkel heeft nu zelfhulp zuilen en er is daardoor minder personeel in dienst. Een persoon die deze zuilen niet kan gebruiken (e.g. bind) moet nu langer wachten of zelfs een afspraak maken.

  4. Een meelezende tweaker suggereerde dat veel studenten (ongeacht afkomst) webcams met veel te lage kwaliteit gebruiken dan wel niet weten hoe deze op te stellen, waardoor detectie natuurlijk óók heel slecht gaat. […] Het zou me verbazen gezien de algemene bewijzen die juist wél wijzen op huidskleur als factor, maar we gaan het meemaken.

    De twee kunnen elkaar natuurlijk ook versterken. Het zou natuurlijk zo kunnen zijn dat het onderzoek van Proctorio is uitgevoerd met een webcam ter waarde van 500 USD. Die webcam heeft dan een dusdanig hoge resolutie/contrast/you-name-it dat donkere mensen anders ‘gezien’ worden dan mensen met een lichtere huidskleur.

    Vervolgens blijkt dat de gemiddelde student een (ingebouwde) webcam heeft ter waarde van 10 euro. Die webcam zou dan een dusdanig lagere resolutie/constrast/etc hebben waardoor enkel de meest optimale (=in dit geval blanke) gezichten herkend worden.

    1. Nog een factor die meespeelt in de beeldkwaliteit is de belichting van het onderwerp, in dit geval: hoe is de verlichting in de kamer van de student en waar zit de student in relatie tot lampen en camera. Een goedkopere camera kan met goede verlichting toch een goed beeld geven, waar een betere camera minder licht nodig heeft.

      Het zou me ook niet verbazen als voor de AI het ook nog uitmaakt voor welke achtergrond een student zit. (licht, donker, een teddybeer die recht de camera inkijkt…) Terecht dat de universiteit tijd gegund wordt om met een testrapport (van de softwareleverancier) te komen.

  5. Daarom wordt het enorm belangrijk om voor AI(achtige) toepassingen sterkere ex-ante regulering te maken, in de vorm van verplichtte certificeringen e.a. Een belofte van een leverancier zal in veel gevallen niet genoeg zijn. Alle software / syetemen die impact hebben op onze persoonlijke levenssfeer of op onze / en de veiligheid i.h.a, zouden moeten woren gecerttificeerd met a) transparante eisen (publieke normenkaders) b) onafhankelijke beoordeling (Audit bij hoog risico) en c) certificaat met duidelijke spelregels zoals geldigheid, voorspellende waarde etc Anders zie je de enorme problemen al: geen vertrouwen, en bij elke twijfel gedoe als dit met bewijzen uit het ongerijmde (bewijs maar eens dat iets niet kan gebeuren ), rechtszaken, En door de scope te beperken tot “persoonlijke levenssfeer” en “veiligheid” hou je allerlei andere AI zoals de AI die je kertboomverliochting aan en uit zet of je thermostaat zoveel mogelijk vrij.

  6. Bij de een onderwijsinstelling zullen ze inderdaad niet denken “mensen van kleur verdienen gedoe bij hun tentamens” maar wat ze zeker wel denken “Mensen die er voor zorgen dat wij deze handige en dure software niet meer mogen gebruiken verdienen gedoe”. En te veel zaken tijdens een studie zijn afhankelijk van de goede wil en medewerking van een docent.

  7. Ik meen me te herinneren dat er in deze blog ooit iets heeft gestaan over dat AI geen beslissingen mag nemen, zonder menselijke controle. Kan dat hier niet van toepassing zijn? Het onderbreken van een tentamen of pas later mogen starten op basis van een AI-beslissing lijkt me nogal een risico. De controle kan toch ook achteraf door een mens plaatsvinden?

    1. Daar heb je gelijk in (art. 22 AVG) maar de vraag is of dit een beslissing is. De AI zegt “uw gezicht is niet in beeld, kom dichterbij de camera” of “u beweegt te veel, zit stil” en als dat te vaak gebeurt dan wordt een mens ingeseind. Ik weet niet of dat telt als iets automatisch beslissen?

      1. Ik zou zeggen van wel. Een surveillant die een student aanspreekt op zijn gedrag: “zit stil”, “kijk naar je eigen blaadje”, etc. zijn berispingen, zo niet waarschuwingen die bij herhaling kunnen leiden tot een sanctie. Ik hoop niet dat ik de brave studenten met wat ik hierna ga schrijven tot verkeerde dingen motiveer, maar het is ook gewoon een beetje hoe het werkt in het onderwijs: Tenzij ze een reputatie hebben van… krijgen studenten altijd wel een of twee kansen. Die ‘geheugensteuntjes’, spieken, etc. worden officieus een beetje ingecalculeerd. In dat opzicht is de waarschuwing feitelijk de eerste sanctie: “Vanaf nu mag het echt niet meer.”

        En buiten dat: een student storen tijdens een examen voor wat dan ook, daar is volgens mij altijd toestemming van de surveillant voor nodig.

        Die melding van Proctorio had ook naar de surveillant gekund, die dan even had kunnen meekijken of het okay was en desnoods zelf de student kunnen vragen iets aan te passen. Dan hoeft het ook niet zo intimiderend over te komen.

  8. “er is geen aanwijzing gevonden dat student bij de vijf toetsen in haar klacht meer technische belemmeringen heeft ondervonden dan andere studenten van de inzet van Proctorio. Bij de VU zijn geen andere klachten van vergelijkbare aard door studenten gemeld.” Als er geen andere studenten waren die klachten hadden, dan is dat toch een aanwijzing dat de studente meer technische belemmeringen heeft ondervonden dan anderen? Of zie ik iets over het hoofd?

    1. Ik denk dat ze onderscheid maken tussen “technische belemmeringen” in het algemeen en “klachten van vergelijkbare aard” in het bijzonder. De eerste is “hij doet het niet”, dat zal vast vaker gemeld zijn en kan dan liggen aan brakke webcams, slechte verbinding, een portretfoto achter je, niet-bijgewerkte updates en ga zo maar door. Die tweede is “ik heb een donkere huid en hij ziet me niet tenzij ik een bouwlamp van onderaf op me laat schijnen” en die heeft niemand gemeld. Waarom is dan vraag 2.

  9. noob die geen onderscheid weet tussen een aardappel en een Logitech C920

    Het lijkt mij sterk dat er nog noobs bestaan die het onderscheid niet weten. 🙂 Ik vroeg namelijk net aan OpenGPT diezelfde vraag en het antwoord was:

    Het onderscheid tussen een aardappel en een Logitech C920 is dat de aardappel een voedselbron is en de Logitech C920 een webcam is. De Logitech C920 is een full HD 1080P webcam met automatische lichtopname en geavanceerde lichtcompensatie. Het heeft ook een ingebouwde dubbele microfoon voor duidelijke audio. Aan de andere kant is een aardappel een knolgewas die een populaire en gezonde voedselbron is. Het bevat veel vezels, vitamine C, kalium en andere voedingsstoffen.
    Dus ik denk dat ook een noob het onderscheid wel weet… 😀

    En HELP! Ik ben opeens verslaafd aan AI! 😀 Wat moet ik doen? 😛

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.