Hoe kunnen we transparantie toevoegen aan besluitvormende algoritmen?

Bestuursrecht en bestuursrechtspraak zijn onvoldoende in staat om ketenbesluiten te toetsen omdat onbekend is hoe een beslisregel exact is opgebouwd en tot welke resultaten deze leidt. Dat las ik in juristenblad NJB. Steeds meer beslisregels en algoritmes worden ingezet om tot formele besluitvorming te komen, maar daarbij is volstrekt onduidelijk hoe dat besluit tot standkomt. Dit op gezag van Marlies van Eck die promoveerde op dit probleem. En ja, dat is een groot probleem want juist bij juridische besluitvorming wil je weten hoe men tot de conclusie is gekomen.

Toevallig las ik vorige week ook nog een Amerikaans artikel waarin wordt voorgesteld een Algorithmic Impact Assessment in te voeren, vergelijkbaar met de milieuimpactanalyse die in de VS al verplicht is. Het doel van een AIA is het begrijpelijk maken van de besluitvorming (bij overheidsinstanties). Dit kent vier aspecten:

First, it would require any government agency that wants to use an algorithm to publish a description of the system and its potential impact. Second, agencies would give external researchers access to the system so they can study it. Third, it would require agencies to publish an evaluation of how the algorithm will affect the public and how it plans to address any biases or problems. And lastly, an AIA would require the agency to create a system for regular people to hold agencies accountable when they fail to disclose important pieces of information about an algorithm.

Deze eisen klinken zeer redelijk, maar het zijn behoorlijk pittige voorwaarden om als bedrijf aan te voldoen. Zeker omdat de techbedrijven die deze AI’s leveren, de werking van hun systemen als een onschatbaar waardevol handelsgeheim zien en daar dus geen inzicht in zullen willen geven. Dat geeft een patstelling: zonder disclosure geen mogelijkheid om te toetsen wat eruit komt, maar met disclosure geen bereidheid het systeem in te zetten voor de publieke taak.

Ik ben er nog niet uit hoe dat dilemma op te lossen. Dat Amerikaans artikel zegt dat het juist een prikkel tot innovatie geeft om een fairder systeem te ontwikkelen. Als je wel moet om überhaupt te mogen leveren, dan wordt het ineens een kans. Klinkt leuk, maar waarom zouden bedrijven die nu hun AI geheim houden dan ineens een open, transparant systeem opzetten?

Arnoud

16 reacties

  1. Ik vindt het onderscheid dat Mireille Hildebrandt maakt tussen ‘uitleggen hoe een algoritme werkt’ en ‘rechtvaardigen wat een algoritme doet’ interessant. Veel AI en zelflerende algoritmes kan je eindeloos onderzoeken zonder ooit tot een rechtvaardiging van het besluit dat ze nemen te komen. Voor een rechtvaardiging, moeten we de hele keten bekijken en dan vooral de aannamen die bij elke stap gemaakt zijn, inclusief een rechtvaardiging van de samenstelling van de trainingsets etc.

    1. Ik blijf zitten met twijfel of rechtvaardiging ooit gaat lukken, omdat AI’s niet redeneren als mensen. Ze verzinnen verbanden op basis van correlaties en trekken daar conclusies uit. Dat krijg je niet uitgelegd op de menselijke manier, zeker niet als je wilt dat daarbij de traditionele juridische regels worden gevolgd.

      Een praktijkvoorbeeld. Al jaren is het geaccepteerd dat een autoverzekeraar jonge mannen (18-24) weigert of verhoogde premie oplegt omdat bekend is dat deze hoge risico’s op ongevallen geven. Een AI zou dat breder aanpakken en alle mogelijke groepen aanwijzen die verhoogde ongevalkansen hebben. Dan komt er dus ineens uit dat ook allochtone vrouwen van 70+ met brilsterkte min zes of hoger sterk verhoogd risico hebben en geweigerd moeten worden. Ik denk dat we dat niet aanvaardbaar zouden vinden, maar het is onweerlegbaar statistisch juist. Hoe rechtvaardig je dat?

      1. Misschien zijn verzekeringen juist een voorbeeld van de noodzaak en het nut van de route van rechtvaardigen. Bij het rechtvaardigen van verzekeringspremies zijn er twee conflicterende rechtvaardigingen waartussen steeds een afweging gemaakt moet worden: premie naar risico en solidariteit. Bij gezondheid vinden we solidariteit het belangrijkst bij roekeloos rijgedrag slaat de meter door naar risico. Een algoritme dat alleen risico beoordeelt heeft een verkeerd uitgangspunt omdat het de solidariteit weglaat en de afweging tussen solidariteit en risico niet kan maken. Het laat de essentie van wat nodig is om het besluit te rechtvaardigen weg.

        Als je alleen focust op de werking van het algoritme, dan krijg je dat nooit boven tafel. Als je de uitgangspunten en de rechtvaardiging ervan langsloopt, dan wordt het wel zichtbaar.

      2. Elke vorm van leeftijdsdiscriminatie lijkt mij onwenselijk. Kijken naar hoeveel jaar iemand het rijbewijs heeft of een autoverzekering zonder schade heb ik geen moeite mee. En dit geeft naar mijn idee een veel beter beeld van iemands vaardigheden en rijgedrag op de weg.

        1. Precies, dit is een menselijke rechtvaardiging voor zeker beleid. Bepaalde feiten vinden we onwenselijk om beslissingen op te baseren, dus daar kijken we niet naar en we verzinnen wat anders. Maar hoe moet een AI weten welke feiten we wel en niet wenselijk vinden? Zeker als keihard vast staat dat zo’n onwenselijk feit een véél betere predictor is dan waar een mens mee komt?

          1. Ik vraag me af of de vergelijking met verzekeringen iets toevoegt. Op basis van schadeclaims en eigenschappen van de klanten (man/vrouw, ras, bril, leeftijd, woonplaats, etc) kan per eigenschap makkelijk een statistische risicofactor worden bepaald. Voor elke klant zou dan op basis van al die afzonderlijke risicofactoren op geheel deterministische wijze een premie kunnen worden bepaald waarbij we tevens makkelijk kunnen aangeven welke eigenschap we wel of niet belangrijk vinden in de premiebepaling. Daar hoef geen AI aan te pas te komen.

            Bij uitleg van het oordeel van een rechtspraak AI wordt nogal de nadruk gelegd op het ‘ongrijpbare’ van een AI en ook ‘bedrijfsgeheim betreffende de werking’. Beide moeten we loslaten omdat delen van de werking in het hele traject best inzichtelijk zijn te maken als we die AI niet alleen als ‘black box’ implementeren maar als een multi-layer systeem met meerdere deterministische stappen en een AI in de laatste stap. Zomaar een paar duizend vonnissen of Algemene Voorwaarden ter training in een volledig neurale AI gooien wordt ‘m gewoon niet. Uitgaande van tekstuele input, waarom niet (ik brainstorm maar even een eind weg):

            1) begrippen toetsen aan een synoniemen lijst en alleen een beperkte set van synoniemen gebruiken in de resulterende tekst

            2) dan de tekst interpreteren en koppelingen maken tussen personen, data, begrippen, gebeurtenissen, etc. Dit kan dus al een behoorlijke gecomprimeerde maar leesbare input geven voor een volgende proces stap. Dit resultaat kan echter ook al deel uitmaken van een controle stap “We hebben dit ervan gemaakt als input voor verdere processing, klopt dit?”

            3) Daarna de input classificeren in een aantal gegevens groepen, en koppelen aan relevante wetgeving (mogelijk door AI), en/of vergelijken met trainingsdata die op dezelfde manier is geprocessed. Ook deze stap kan inzichtelijk en controleerbaar worden gemaakt.

            4) Dan een AI een oordeel laten geven op basis van deze input.

            Eigenlijk is de basis het volgende: hoe meer ruis je uit je inputs weg kan halen door deterministische processing, hoe beter de stappen controleerbaar zijn, en hoe beter de uiteindelijke AI zijn werk kan doen. Ik heb namelijk echt het idee dat AI als ‘blackbox’ een beetje een hype aan het worden is als ‘holy grail’ oplossing voor van alles, terwijl zelfs onze eigen hersenen meer deterministische stappen uitvoeren dan we ons in eerste instantie bewust van zijn.

            De gelaagde opbouw maakt het ook makkelijker om sensitivity-analyses uit te voeren door weegfactoren te variëren van de verschillende tussenresultaten.

            1. Ik denk dat AI echt wel wat kan toevoegen in dit soort zaken. We hebben het uiteindelijk over statistische analyse en patroonherkenning in grote bakken data. Ik geloof graag dat je ook deterministisch kunt spitten op basis van handmatig gekozen factoren (man/vrouw, ras, bril, leeftijd) maar de crux zit hem in die “etc” die je noemt. Er is véél meer informatie dan wij kunnen bedenken en zo’n bigdata-analyse kan die boven water krijgen terwijl mensen dat niet opviel. Jij en ik kunnen geen factoren bedenken om zwangerschap bij een supermarktklant vast te stellen, AI algoritmes wel.

              Mijn zorg is dat het ongrijpbaar is hoe die algoritmes dat doen. Natuurlijk, ze kunnen factoren correleren en dus noemen welke de sterkste correlatie noemen, maar wat moeten we daarmee? Er staat in een aanvraag bouwvergunning het woord “mooi” en dat correleert sterk met toegewezen aanvragen, deze wordt dus toegewezen. Dat klopt vanuit het algoritme maar als menselijk besluit zou het bizar zijn.

          2. De onwenselijke “feiten”/data wordt als input gegeven. Als je, zoals de Amerikaanse wet voorschrijft, niet mag discrimineren op geloof, geslacht, leeftijd, ras, en handicap, dan train je een algoritme dat geen gebruik maakt van deze variabelen.

            Daarna train je een inzichtelijk model op de output van bovenstaand algoritme, wat wel gebruik maakt van de beschermde variabelen (indien aanwezig). Dit model kan dan aangeven: Oude zwarte vrouwen worden telkens anders beoordeeld dan jonge witte mannen. En zelfs: Doordat het bovenstaande model leert van bepaalde transactiegegevens en kijkgedrag, kan het ras, leeftijd, en geslacht afleiden, zonder directe toegang tot deze variabelen. Men kan dan handmatig de score van bovenstaand model aanpassen, door bijvoorbeeld een kleine boost te geven aan zwarte vrouwen, en zodoende te garanderen dat iedereen een eerlijke kans krijgt.

            https://arxiv.org/abs/1710.06169

            https://arxiv.org/abs/1610.02413

            Uiteindelijk is elke model te herleiden tot een sloot probabilistische IF-THEN statements. Als een model aangeeft dat “IF mooi THEN accept bouwvergunning is 95%”, dan dien je als modellenbouwer het woord “mooi” weg te laten uit de representatie.

            1. Het probleem met deze benadering is dat je de “onwenselijke feiten” vaak niet als zodanig kunt herkennen. Omdat je aan de Amerikaanse wet refereerd: Bij het beoordelen van de hoogte van hypotheken en te betalen rente word gekeken naar dingen als jouw betalingsgeschiedenis in het verleden. Als daaruit blijkt dat jij in het verleden een risico-toeslag had, dan heb je een grotere kans die opnieuw te krijgen (ondanks dat die risico toeslag in het verleden gebaseerd was op racisistische motieven); iets dergelijks geld voor het wonen in bepaalde wijken, enz. Het is heel moeilijk om dit soort historische balast achter ons te laten.

              Een van de intenties van de AVG is het tegengaan dat algoritmes over ons beslissen. Wat mij betreft komt er daarnaast een motivatieplicht voor bepaalde beslissingen, zodat klanten kunnen zien op basis van welke gegevens een beslissing is genomen. Kan een AI systeem dergelijke gegevens niet leveren, dan kan het niet gebruikt worden.

              1. Ik denk dat het zaak is, als de uitspraak van een model levensbelangrijk is, dat je er altijd een expert naar laat kijken. In de verklaarbare AI wereld is er een oud verhaal van een groep wetenschappers die een ziekenhuiswachtkamer triage model moesten maken. Het model had geleerd: “Als er iemand binnenkomt met asthma en longontsteking dan valt het wel mee met levensgevaar, en kan die persoon best even wachten”. Dit omdat dokters mensen met asthma en longontsteking erg gevaarlijk vinden, deze meteen met spoed werden opgenomen, en de best mogelijke zorg ontvangen. Ja dan valt het uiteindelijk, in het algemeen, wel mee met levensgevaar.

                Een modellenbouwer zonder medische kennis zal zo’n uitspraak niet erg raar of onwenselijk vinden. Maar door verklaarbaarheidstechnieken werd deze regel erg hoog geranked, en een review door dokters vond toen pas de onwenselijke/onnatuurlijke uitspraak (en het model kon gecorrigeerd worden).

      3. Ik zie geen fundamenteel onderscheid tussen het meer laten betalen door 18-24 jarige mannen, en 70+ vrouwen. Het algoritme kan aantonen dat de laatste groep inderdaad een verhoogd risico heeft. Maar goed, discrimineren kan men leren. In plaats van geslacht en leeftijd als beschermde variabelen, zou men vrouwen en oude leeftijd als beschermde variabelen kunnen nemen. Maar dit is meer willekeur en politieke correctheid, dan redelijk en aanvaardbaar.

        Verder is het algoritme zelf in vrijwel alle gevallen geen probleem om te openbaren. Veel grote bedrijven geven deze algoritmes zelfs vrij, middels open source. Wat wel bedrijfsgeheim is, is de data / variabelen die als grondstof dienen voor het algoritme. Arnoud kan met gemak zeggen dat hij een SVM gebruikte voor de NDA-voorspeller. Om het na te maken als concurrent, heb je dezelfde data en target nodig.

        En marktwerking zal dit wel oplossen. AI-bedrijven die aan de overheid leveren, dienen solide, statistisch significante, systemen op te leveren, waar alles is gedaan om de transparantie te verhogen en bias te verlagen. Kun of wil je dit niet, moet je maar aan bedrijven gaan leveren, en mag je al die lucratieve contracten als hofleverancier op je buik schrijven.

  2. Een verzekering is geen solidariteitssysteem. Het is een zakelijke deal op grond van onzekerheden gegeven een bepaalde stand van kennis

    Een probleem voor verzekeringen is zelf-selectie: als we op een gegeven moment onderscheid maken aan de kant van de verzekeraars verbieden, dan zullen personen met een hoog risico hiervan een voordeel hebben, en personen met een laag risico niet. De personen met een laag risico kunnen er dan voor kiezen zich niet te verzekeren, waardoor de premie omhoog moet, waardoor nog meer mensen met een relatief laag risico zullen besluiten eruit te stappen, totdat de verzekering alleen nog maar mensen met een zeer hoog risico overhoudt, en niet dus meer werkt.

    Willen we dus het discriminatie op bepaalde, in dit geval relevante, feiten verbieden, dan zul je niet alleen de verzekeraars een verplichting moeten opleggen dit gegeven niet mee te nemen in de afweging, maar ook de klanten. Dit is in feite wat is gebeurd in het Nederlandse stelsel van zorgverzekeringen: verzekeraars hebben een aannameplicht; burgers een verzekeringsplicht. Naar mijn mening kun je dan ook niet meer over een verzekeringsstelsel spreken, maar van een solidariteitsstelsel.

    Er zijn verzekeraars die zich doelbewust richten op groepen met een relatief laag risico: deze proberen door hun marketing strategie hoog-risico groepen uit te sluiten: niet folderen in achterbuurten, niet adverteren in de roddelblaadjes, enz. Hoezo is dat dan geen discriminatie…

  3. Het probleem dat je wil dat bedrijven hun methodes vrijgeven, en ze toch een concurrentievoorsprong geven is eerder opgelost met patenten.

    Vanzelfsprekend geeft dat weer andere problemen (wil je dit soort patenten wel). Maar het lijkt me geen onoplosbaar dilemma.

    1. Je kunt bij mijn weten geen data patenteren, of wiskundige formules. Vast wel dat dit gebeurd, maar in principe kan het niet.

      Als je echt iets geheim wilt houden (stel je doet algoritmisch handelen op de beurs en vindt een nieuwe activatie functie in een neuraal netwerk), dan hou je deze gewoon voor jezelf. Ik denk dat met de huidige staat van AI dat concurrentievoorsprong voor overheidssoftware wel meevalt. Als een bedrijf een methode vindt om modellen volledig transparant, verklaarbaar, en van bias ontdaan op te leveren aan de overheid, dan profiteert iedereen van deze kennis.

      Stel dat je 15 jaar moet wachten voordat je weer mee mag doen met de “grote jongens”.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.