Een lezer vroeg me:
Jaarlijks worden mijn collega’s en ik beoordeeld via het bekende instrument van de 360 graden feedback. Nu krijgen we dit jaar de instructie dat een van de feedbackgevers de dienst ChatGPT moet zijn, met als argument dat deze met gerichte vragen zeer accurate sterkte/zwakte analyses kunnen maken, zelfs zonder het personeelsdossier te uploaden. Ben ik verplicht daar aan mee te werken?De 360 graden feedback is een bekende methode om van mensen om je heen feedback over je functioneren te krijgen. Die bundelen levert dan waardevolle inzichten op. Zoals ze het bij Jobbird zeggen:
Hierbij krijg je niet alleen terugkoppeling van jouw leidinggevende, maar van allerlei betrokkenen. Dit zijn meestal collega’s, maar kunnen bijvoorbeeld ook klanten zijn. Zo ontstaat er een completer beeld van jouw prestaties en manier van werken. … Dat is meteen een groot voordeel van de 360 graden feedback methode: het schept een compleet beeld van jou als werknemer. Je krijgt feedback vanuit verschillende invalshoeken en krijgt de kans om hierop in te gaan. Daarbij komt de terugkoppeling voor een deel van collega’s met wie jij dagelijks samenwerkt, dus je weet zeker dat zij weten waarover ze het hebben.De inzet van de dienst ChatGPT (of Copilot, of Gemini of wie je maar wilt) lijkt op het eerste gezicht hier goed bij te passen. Het is een andere invalshoek, je krijgt uitgebreide feedback en het is ook nog eens snel beschikbaar.
Juridisch is er van alles van te vinden: je moet persoonsgegevens invullen om feedback op je persoon te krijgen. Die gaat naar Amerika, wat doen ze daarmee en welke grondslag geldt daarvoor. Gaat het hier om een betaald account van de werkgever, of moet je maar gewoon de gratis versie gebruiken? Alleen al hierom zou ik het afraden.
Laten we even aannemen dat de werkgever een compliant omgeving heeft ingericht. Copilot met alle enterprise toeters en bellen, of een eigen local hosted LLM voor mijn part. Dan nog lijkt het me geen goed idee, en wel hierom.
Een collega kan feedback geven omdat die je heeft gezien werken: in vergaderingen, onder druk, in conflicten, in samenwerking. Een leidinggevende kan dat vanuit een andere rol. Klanten en relaties weer vanuit een derde perspectief. ChatGPT heeft geen toegang tot je feitelijke gedrag, prestaties of context. Alles wat het “zegt” is per definitie afgeleid van prompts, niet van observaties. Daarmee is het geen extra invalshoek, maar een spiegel van wat er al in de vraagstelling zit.
Daarnaast: 360-gradenfeedback werkt omdat mensen expliciet maken wat ze weten, inclusief onzekerheden, twijfels en tegenstrijdigheden. “Dat weet ik niet” of “dat heb ik nooit bij jou gezien” is óók waardevol. LLMs geven dat soort dingen niet; die geven een lap tekst die mooi klinkt.
En het belangrijkste: ChatGPT draagt geen verantwoordelijkheid voor wat het zegt. Een collega of werkgever kun je aanspreken op waarom die iets zegt. Of op zijn minst je eigen verhaal meenemen bij de evaluatie. Bij taalmodellen wordt de output al snel gelezen alsof die “objectief” of “neutraal” is, juist omdat het van een systeem komt. Dat creëert een vorm van synthetisch gezag: woorden met het uiterlijk van deskundigheid, zonder een deskundige erachter.
Kun je daar juridisch wat mee? Niet direct; de keuze van evaluatietools is voor de werkgever. Als die een minder handige tool wil gebruiken dan is dat zakelijk onverstandig maar op domme wijze mensen managen is niet verboden. De compliance-grenzen zijn een punt, maar kunnen (in theorie) worden behaald.
Ik houd dan eigenlijk alleen nog de ondernemingsraad (OR) over, die instemmingsrecht heeft bij onder meer “een regeling op het gebied van de personeelsbeoordeling”. Als de feedback dus input is voor je beoordeling, dan moet dit langs de OR. Is het puur voor zelfverbetering zonder impact op je beoordeling, promotie, vaste aanstelling en dergelijke, dan kan de OR hooguit dringend afraden.
Arnoud

Ik heb voor minder stompzinnige beoordelingseisen geweigerd mee te werken.
Maar ik besef ook dat ik in een luxe situatie zat (en zit) dat ik in een branche werk met ernstige tekorten. Uiteindelijk na nog een opdracht waar ik niet achterstond bij deze werkgever had ik binnen een maand een nieuwe werkgever.
Maar zelfs in een andere branche zou ChatGPT feedback op mijn functioneren voor mij voldoende reden om op zijn minst te gaan kijken wat voor vacatures er beschikbaar zijn.
’t is niet verboden in dezelfde zin dat het niet verboden is om als bedrijf compleet stupide dingen te proberen…
Maar even praktisch: als jij ChatGPT gebruikt voor feedback en je hoeft de prompt niet te delen….. dan weet ik wel hoe daar met een half uurtje experimenteren extreem positieve feedback uitkomt.
Dat is waar, maar 360 graden feedback is altijd te gamen als je dat wilt, ook zonder ChatGPT, door alleen die mensen feedback te vragen waarvan je weet dat ze wel iets positiefs gaan zeggen. Maar dat doen is dan zinloze compliance. Het systeem werkt alleen als de medewerker te goeder trouw is en bereid om feedback te krijgen waar die werkelijk iets mee kan
Nee het systeem zal nooit werken. Een computer kan een mens nooit op een fatsoenlijke wijze beoordelen zoals een mens dat kan. En een LLM al helemaal niet. Het feit dat mensen dit geloven zegt vooral iets over waar de LLM’s goed in zijn: je een goed klinkend verhaal voorhouden. Technisch is het totale flauwekul, een LLM snapt niks en kan niks behalve tekst (in dit geval) produceren. Arbeidsrechtelijk zou ik dit onder slecht werkgeverschap scharen.
Beste Henk, ik heb door de jaren heen wel gezien en gehoord hoe onfatsoenlijk een beoordeling door een menselijke manager kan zijn. Een goed geïnstrueerde computer maakt reproduceerbaar objectieve beoordelingen, zonder de inherente subjectiviteit die je bij een beoordeling door een mens hebt. Ik ben het met je eens dat LLM’s getraind zijn op verhalen vertellen, ze zijn ook niet mijn eerste keus voor personeelsbeoordeling.
Er zijn computersystemen die kunnen helpen een beoordeling objectiever te maken. Bij een call-center medewerker kun je een geautomatiseerde stem-analyse van de klant gebruiken om en indicatie te krijgen of de klant vindt dat zhij goed afgehandeld wordt. Doe dit voor een relevante steekproef van de gesprekken en er rolt een objectief rapportcijfer uit. Vakkennis kan in veel gevallen getest worden met een door de computer afgenomen toets.
Mijn stelling is dat een computer beter is in het maken van objectieve beoordelingen dan de gemiddelde mens. Het grote probleem is het op correcte wijze stellen van de relevante normen voor de beoordeling; zie de reactie van Gregorius op mijn verzoek voor meer objectieve beoordelingsnormen in een ander draadje bij deze post van Arnoud.
Hoe zou dit uberhaupt moeten werken? Als je feedback krijgt van een collega en je zet dat in je ding, kan je leidinggevende naderhand aan die collega vragen of het klopt wat daar staat (of er zijn zelfs tools die zorgen dat je er niet mee kunt klooien). Maar een tekstje dat uit een llm komt is toch niet te verifieren?
Of is er een of ander bedrijfje dat een paar miljard aan VC heeft gekregen voor een tooltje dat 360-feedback genereert via chatgpt…
Hoe kan ChatGPT mij feedback geven, het kent mij helemaal niet en heeft ook niet met mij samengewerkt?
Grote taalmodellen kunnen wel een hulpmiddel zijn om een tiental feedback-formulieren samen te vatten in een rapportje.
Dit klinkt als een variatie op: “AI can’t do your job, but AI marketers can convince your boss that it can.”
@lezer: Wat is het belangrijkste bezwaar dat je hier tegen hebt? Is het dat ChatGPT jou onmogelijk opbouwende of behulpzame feedback kan geven, of maak je je zorgen omdat je bepaalde gegevens over jezelf in die chatbot moet stoppen?
Het kwaliteitsprobleem klinkt als een issue dat je het best op kan lossen met letterknechterij oftewel “malicious compliance”. Als je werkgever eist dat je feedback ophaalt bij ChatGPT, welnu die reageert op jouw prompt, en ook op jouw eerder. Instrueer ChatGPT om alleen en uitsluitend bijzonder positieve feedback te geven op toekomstige vragen om feedback en ga daarna feedback vragen. Als je bezwaar met name gaat over je privacy dan helpt dit natuurlijk, maar daar heeft Arnoud al wat over gezegd.
De klassieke 360 feedback is een cultuur bevestigende insteek met alle vooroordelen en niet uitgesproken achterliggende machten
Wat dat betreft is het loskoppelen naar een andere insteek niet bij voorbaat verkeerd. De veronderstellingen dat alles persoonlijk moet en naar de vs gaat is nogal met een bias geladen.
Begin eens met de vraag waar het doel van dat gebeuren nu over ging
Ik vind een beoordeling gebaseerd op 360 graden feedback beter dan de klassieke “directe manager handelt de beoordeling alleen af”. Bij een klassieke beoordeling ben je overgeleverd aan de vooroordelen van een enkele persoon, de 360 review geeft gezichtspunten van meer personen.
Als wiskundige zou ik het liefst een beoordeling op puur objectieve gronden zien, maar ik vraag me af in hoeverre dat mogelijk is voor aspecten als “samenwerken”.
Dat zou mooi zijn, maar ik vrees dat het alleen bij een klein deel van de functies kan. Je wil ook voorkomen dat er een verkeerde prikkel ontstaat. Neem als voorbeeld een chirurg; je zou kunnen voorstellen dat een goede objectieve grond het succespercentage van operaties is. Zoiets heeft dan alleen als ongewenst neveneffect dat er een prikkel ontstaat om alleen de voorspelbare, veilige operaties uit te willen voeren waarbij de kans op succes het grootst is. Chirurgen zullen dan risicovolle procedures (wat voor patienten dan vaak de enige mogelijke kans is) niet meer willen uitvoeren, terwijl je eigenlijk wil dat de allerbeste chirurgen de meest moeilijke procedures uitvoeren.
In het klein zie je dit bij helpdesken, met name van grote partijen (denk aan Cisco, Fortinet, Microsoft en dat soort partijen). Je merkt dat die hun personeel beoordelen op factoren zoals de snelheid waarmee tickets worden afgesloten; als het ook maar even kan zetten ze het ticket zo snel mogelijk door naar iemand anders, of ze linken naar een support-artikel waar je niets mee kan, alles om dat ticket maar zo snel mogelijk af te kunnen sluiten. Zo zie je dat een metric die ooit bedoeld was om de dienstverlening aan klanten te verbeteren (snel geholpen worden) vooral de dienstverlening enorm verslechtert (support personeel neemt niet eens de tijd om je ticket te lezen maar linkt het eerste het beste artikel en zet het dan op “Waiting for customer”).
Ik ben aan het kijken hoe een en ander reageert met een LLM buiten alle gebaande paden en aannames. Daar zijn best fraaie mogelijkheden gezien hoe een en andere regeert.
De grap in deze is dat bij wiskunde het idee leeft dat je onzekerheden moet uitsluiten. Wiskunde kan ook heel goed gebruikt worden om met onzekerheden onvoorspelbaarheid om te gaan. De buzz kreet daarvoor is … quantum. In een taalmodel zit een constructie hoe met taal om te gaan. Daarachter zit een constructie voor patronen in redeneren – logica. Dat gaat veel verder dan een makkelijke KPI metric de menselijke managers nu gebruiken. Die gebruiken ze uit de administratieve macht terwijl er geen inzicht is in de uitvoering. Voor filosofie is er aardig veel boekwerken, daar kan een LLM wat mee. Het breekt met de insteek over metrics. Gewoon een LLM vragen of metrics KPI tot het gewenste resultaat van de intentie leiden. Een van de vele referenties om te gebruiken: https://en.wikipedia.org/wiki/TheBigCon%28MazzucatoandCollingtonbook%29
Een AI-systeem dat bedoeld is om te worden gebruikt voor het monitoren en evalueren van prestaties en gedrag van personen in arbeidsgerelateerde betrekkingen is een hoog risico AI-systeem (bijlage III artikel 4 sub b). Een all-purpose LLM als ChatGPT of Copilot is daar echter niet specifiek voor bedoeld. Het gebruiken van een all-purpose LLM voor een toepassing die naar zijn aard riskant is, dus nog geen hoog risico AI-systeem en is dus niet verboden (maar slechts onverantwoordelijk c.q. stupide). Zou de AI-Verordening dus niet moeten voorschrijven dat het zakelijk gebruiken van een AI-model voor algemene doeleinden niet toegestaan is als die gebruikt wordt om iets te doen wat op de hoog risico-lijst staat?
De bedrijfsmatige keuze om stelselmatig ChatGPT in te zetten als prestatie-evaluator maakt deze GPAI-dienst tot een hoog-risico-AI-systeem. De organisatie heeft dan immers een intended purpose vastgesteld voor de dienst en er daarmee een AI-systeem van gemaakt. Dat deze keuze enkel organisatorisch is en niet meer is dan een leuk geformuleerde prompt, doet daar niets aan af.
Dank je. Zo zou ik het ook adviseren omdat dit bij de geest van de wet past en vermoedelijk door een rechter zo uitgelegd zal worden. De wet zou immers wel heel makkelijk omzeild kunnen worden als bedrijven GPAI’s intern ‘zo maar’ zouden kunnen gebruiken voor hoog risico-toepassingen. Maar de letter van de wet helpt niet echt bij het onderbouwen hiervan. “Gericht prompten” maakt een GPAI immers nog geen AI-systeem in de zin van de wet (omdat het niet voor de specifieke toepassing bedoeld/gemaakt is). Vermoedelijk zijn er veel bedrijven die onbewust onbekwaam zijn en o.a. cv’s op geschiktheid voor vacatures laten beoordelen door GPAI-systemen zonder dat onderkend wordt dat men hierdoor een hoog risico AI-systeem/toepassing gebruikt? Maar ja, hoe ontdekt een toezichthouder zoiets als er geeneens een systeem voor gebouwd of gekocht hoeft te worden? En hoe kom je er als gedupeerde betrokkene achter dat je cv of sollicitatiebrief door ChatGPT terzijde is gelegd omdat je de verkeerde hobby hebt of de LLM bepaalt dat je ongeschikt bent voor de functie vanwege ?
Hoezo ““Gericht prompten” maakt een GPAI immers nog geen AI-systeem in de zin van de wet”? Juist wel. Die gerichte prompt maakt de toepassing. “Neem de rol aan van een senior HR medewerker en evalueer deze collega”.
Niets in de wet eist dat je technische verbouwingen doet voordat je van “intended purpose” mag spreken. In het achterliggende kader van het NLF en productveiligheid geldt hetzelfde. Als ik op een kettingzaag de sticker “Geschikt als speelgoed voor kinderen van 12” plak, dan heb ik er speelgoed in de zin van de Speelgoedveiligheidsrichtlijn van gemaakt. Ik hoef ‘m niet Bob De Bouwer-geel te schilderen of het handvat op maat te maken voordat het speelgoed is.
Het door een GPAI-gebruiker even lekker wat nuttigs proberen te prompten binnen een GPAI is zelf geen AI-systeem (conform definitie van art. 3 AI-Verordening), lijkt mij. En daardoor lijkt zelf wat prompten in een door een ander gebouwde GPAI mij formeel niet te kunnen voldoen aan bijlage III. Er moet conform bijlage III immers sprake zijn van een AI-systeem dat bedoeld is om de dingen uit bijlage III mee te doen. De vergelijking met de kettingzaag gaat niet helemaal op (het kind koopt hier zelf de kettingzaag bij een bouwmarkt en zaagt er zonder de benodigde vergunning bomen mee om zonder te weten dat dat niet mag – en de bouwmarkt hoeft er geen sticker op te doen dat dat niet mag). Maar we zijn het eens, ook zelf prompten met de bedoeling om ‘stiekem toch’ hoog risico dingen te kunnen doen, mag niet zo lang je hierbij niet aan de eisen van de AI-Verordening voldoet. Het probleem is vervolgens wel dat het praktisch onmogelijk is om als gebruiker van een GPAI aan de wet te voldoen als je d.m.v. prompts er een verkapte hoog risico AI-toepassing van maakt. Je wordt hierdoor immers direct zowel gebruiksverantwoordelijke als aanbieder (aan jezelf). En aan de verplichtingen van de aanbieder kan je niet voldoen (succes met een systeem voor risicobeheer voor je prompts in andermans biassed output ijlende black box!). Het zal allemaal juridisch gezien (maar te impliciet naar mijn smaak) wel duidelijk zijn dat dit op deze manier ook niet mag. Even lekker zelf hoog risico prompten bij gebrek aan een dedicated applicatie is echter geen victimless crime, maar heeft helaas wel een lage pakkans. Juist omdat het bij gebruik van GPAI niet om een met dit doel op de markt gebrachte applicatie gaat en niemand dus kan zien dat dit in de praktijk toch gebeurt. Hoe duidelijker het is dat ‘hoog risico prompten’ ook niet mag, hoe beter dus. Jurisprudentie op basis waarvan een bedrijf beboet wordt voor met behulp van GPAI ‘hoog risico prompten’ (en daar voor betrokkenen mogelijk nadelige beslissingen op baseren die hun grondrechten raken), zou helpen bij de bewustwording dat je niet zo maar alles bij elkaar mag prompten en er keuzes m.b.t. mensen op mag baseren. Op elke GPAI zou wettelijk verplicht een sticker moeten zitten: “GPAI’s vertrouwen kan de bedrijfsvoering ernstige schade toebrengen”.
Ik zei dan ook niet “even lekker wat prompten”, maar de “bedrijfsmatige keuze om stelselmatig ChatGPT in te zetten als prestatie-evaluator”. Dát is een intended purpose geven aan een GPAI, en het enige echte verschil tussen een AI-systeem en een GPAI is intended purpose.
Eens dat de pakkans laag is, hoewel dat specifiek bij HR nog wel uit kan komen juist omdat het in een bedrijfsproces staat of in uitvoer herkenbaar is.
Daar staat tegenover het geautomatiseerd inzetten van systemen waarbij de inhoud door managers ongecontroleerd met een grote impact tot stand komt. Je zou kunnen zeggen dat het hele beoordelen van personeel door de AVG verboden is.
Als je mensen maar dom genoeg managet kun je wel in conflict komen met het vereiste van goed werkgeverschap. En als afgeleide daarvan ook met de AVG.