AI recruitmentsoftware is “automatische pseudowetenschap”, wat zal de wet ervan vinden straks?

geralt / Pixabay

Een recente studie van de Universiteit van Cambridge laat zien dat AI software voor werving en selectie vaak “geautomatiseerde pseudowetenschap” is, zo las ik bij The Register. Het gaat om tools zoals de Personality Machine, die mensen scoort op de Big Five persoonlijkheidstheorie – in de HR de “meest gebruikte en best onderzochte persoonlijkheidstheorie.” Uiteraard is het argument dan dat zo’n AI veel objectiever kan scoren, want er leeft dus het idee dat een getal uit een computer “objectief” is en vrij van vooroordelen en dergelijke. Maar het gaat mis op veel simpeler punten. Ik dacht, een leuke voor de aankomende AI Verordening.

De beschrijving van JobPersonality.com over die theorie is veelbelovend:

Uit jarenlang en wereldwijd psychologisch onderzoek blijkt dat je iemands persoonlijkheid door middel van vijf dimensies, de zogenaamde Big Five, kunt beschrijven. Deze dimensies zijn extraversie, vriendelijkheid, emotionele stabiliteit, ordelijkheid en openheid. Per dimensie kun je hoog, laag of ergens daar tussenin scoren. Er zijn geen slechte scores. Je moet er alleen voor zorgen dat je een (werk)omgeving vindt of creëert die bij je persoonlijkheid past. Veel persoonlijkheidstests die bij loopbaanadvies worden gebruikt, zijn gebaseerd op de Big Five persoonlijkheidstheorie.
Het idee: je scoort mensen op die vijf dimensies en bepaalt dan bij welk werknemersprofiel ze passen. Een zeer introverte, zeer ordelijke gesloten persoonlijkheid moet je niet naast een extroverte supervriendelijke medewerker in de sales neerzetten bijvoorbeeld, maar ik zou die wel als data-jurist bij ons willen hebben. Alleen, hoe bepaal je die scores? Dat is dus mensenwerk en dat is waar het dan mis kan gaan: verhalen te over van HR-medewerkers die op basis van de aanwezigheid van een stropdas iemand hoog op ordelijk scoren of op etnische afkomst en dergelijke iemand als introvert of instabiel aanmerken.

Dat is waar de AI-promoties bij binnenkomen: een AI belooft dat objectief te doen. Die heeft niets met stropdassen maar kijkt naar de inhoud, zo is het verhaal, en daar komt dan dus een veel betere score uit. En ook als iemand in het gesprek een minder moment heeft, zal dat bij een AI er niet toe doen. Dit is het belangrijkste argument waarom AI steeds vaker aangenomen wordt, het elimineren van menselijke tekortkomingen. (De eigenlijke reden is kostenbesparing want goede HR-mensen zijn duurder dan een licentie op zo’n tool.)

Gaat dat nou echt goed? Nou nee, want alles staat of valt met hoe zo’n AI getraind is. Quoth the Raven, pardon the Register:

They found the software’s predictions were affected by changes in people’s facial expressions, lighting and backgrounds, as well as their choice of clothing. These features have nothing to do with a jobseeker’s abilities, thus using AI for recruitment purposes is flawed, the researchers argue.
Oftewel: de AI is getraind op foto’s van mensen waarbij aangegeven is welke score ze hebben, waarna de AI dingen is gaan zoeken die deze mensen van elkaar onderscheiden. En voor een AI is “lacht klaterend” net zo goed een feature als “heeft goede verlichting” of “heeft een boekenkast op de achtergrond”. Dus als je de extraverten kunt onderscheiden van de introverten door te kijken naar de belichting in de foto, dan is dat helemaal prima.

Het paper gaat nog in op een aanverwant onderwerp, namelijk het elimineren van bias op etnische afkomst of gender. Waarbij de tools enerzijds beloven dat ze niet kijken naar die aspecten bij de beoordeling, maar dat je wel een diversiteits-vlaggetje aan kunt zetten als je extra divers wilt recruiten(?). Men is daar zeer kritisch over:

AI hiring firms argue that their tools can increase the diversity of a firm’s incoming workforce in two ways. First, companies such as HireVue suggest that since AI-powered hiring tools can process far larger numbers of applications than human recruiters, it also allows companies to assess a more diverse range of candidates: … . Secondly, AI hiring firms like myInterview and Retorio insist that the removal of bias from the hiring process will naturally result in a more diverse workforce. … While we do not deny that AI-powered tools may help HR professionals recruit more diverse workforces, we also caution that such “diversity tools” may obscure the structural issues within organizations that lead to underrepresentation in workforces and exclusive work cultures.
Het introduceren van diversiteit of het sturen op eliminatie van bias is een zeer ingewikkeld concept, niet iets dat je met het uitrollen van een leuke nieuwe AI tool eventjes oplost. Maar dat even terzijde: hoe kijkt de wet hier tegenaan?

Op dit moment is de enige echte regelgeving de AVG, die in artikel 22 bepaalt dat je mensen niet mag onderwerpen aan besluiten die enkel door een computersysteem zijn genomen. Iemand geautomatiseerd afwijzen omdat de Big 5 score uit die tool niet past bij het functieprofiel valt daaronder en mag dus niet. Een recruiter mag de output van de tool wel gebruiken als deel van een evaluatie, mits die meer is dan “computer says no” natuurlijk.

De aankomende AI Act (AI Verordening) is al heel wat strenger over dit soort tools. Overweging 36 zegt expliciet

AI-systemen die worden gebruikt op het gebied van werkgelegenheid, personeelsbeheer en toegang tot zelfstandige arbeid, met name voor de aanwerving en selectie van personen, voor het nemen van besluiten over de promotie en het ontslag en voor de toewijzing van taken, de monitoring of de evaluatie van personen in werkgerelateerde contractuele betrekkingen, moeten ook als systemen met een hoog risico worden geclassificeerd, aangezien deze systemen aanzienlijke gevolgen kunnen hebben voor de toekomstige carrièrekansen en het levensonderhoud van deze personen.
“Hoog risico” wil hier zeggen dat ze alleen gebruikt mogen worden als aan zeer strenge eisen is voldaan. De kern is dat je een “systeem voor risicobeheer” hebt, waarmee je de relevante risico’s in kaart hebt en kunt bijsturen wanneer deze dreigen zich voor te doen. Ook heb je gewerkt met data die voldoet aan hoge kwaliteitseisen die hoort bij het vakgebied. Als mensen anders scoren op basis van de belichting, dan is dat dus niet in orde bijvoorbeeld. En oh ja, van dit alles heb je schriftelijk bewijs dat het allemaal zo is, én je hebt mensen die meekijken of het systeem echt goed blijft werken.

Dat je het systeem op basis van een mooie glimmende folder en demonstratie in de boardroom (“Even kijken hoe Johan van Finance scoort haha”) hebt aangekocht, is daarbij geen argument: je moet als gebruiker van de tool zélf kunnen aantonen dat deze veilig is. Natuurlijk mag je dan bewijs van de leverancier vragen, maar dat moet dus voldoen aan die wettelijke eisen en het is jouw probleem als de leverancier onvolledig is of liegt over een en ander.

Meelezende HR mensen, hebben jullie ervaring met dergelijke tools en op welke punten in het proces zet je deze in?

Arnoud