zelflerende systemen Archives

Mooie column van Karin Spaink (dank Bram): Ondermijning als verdienmodel, over het AI-softwarepakket van Totta Datalab waarmee gemeenten de pakkans van fraudeurs kunnen vergroten. Zou je denken, maar het systeem is 50% accuraat oftewel wijst in de helft van de gevallen mensen onterecht als fraudeur aan die vervolgens een heel onderzoekstraject voor de neus krijgen. Spaink voelde Totta aan de tand daarover, maar kreeg “Mooi toch dat we fraude zo beter kunnen opsporen? En hun datamodel was zelflerend, dan haal je die systeemfoutjes er toch uiteindelijk vanzelf uit?” als reactie. En dat hoor ik vaker, dus daar ga ik eens wat over zeggen, dat zelflerende.

Een belangrijke belofte van Artificial Intelligence is dat systemen zelflerend zijn. Dat wil zeggen dat ze leren van fouten in hun uitvoer, zodat het de volgende keer beter gaat. Een bekend voorbeeld is de klokthermostaat die ik thuis heb. Daarop stel ik in dat het om zeven uur 19 graden warm moet zijn. Standaard begint hij dan om half zeven te verwarmen, en om zeven uur vergelijkt hij de werkelijke temperatuur met de ingestelde 19 graden. Afhankelijk van het verschil wordt dat begintijdstip aangepast. Het systeem ‘leert’ op die manier hoe snel mijn huis verwarmt.

Veel systemen zijn complexer dan dit. Een auto met zelflerende inparkeermogelijkheid of automatisch rem heeft tientallen sensoren die meten hoe de omgeving verandert tijdens het bewegen, en is in staat ook dit met de gewenste eindtoestand (geparkeerd staan in dat vak of stilstaan vóór het object) te vergelijken om zo tot aangepast rijgedrag te komen voor de volgende keer. Maar het principe blijft hetzelfde: er is een gewenste eindtoestand, er is informatie over het verschil met de werkelijke eindtoestand en er is een mogelijkheid het gedrag aan te passen om die twee dichter bij elkaar te brengen.

In juridische advies- of beslissystemen snap ik werkelijk niet hoe je van een zelflerend systeem kunt spreken. Daar is er geen gewenste eindtoestand die je als computersysteem uit kunt lezen. Het beste dat je kunt doen, is dat een mens achteraf analyses als fout markeert, hopelijk met indicaties waarom. Je kunt dan je analysesysteem aanpassen op basis van de nieuwe informatie. Maar in heel veel gevallen krijg je die input niet, omdat je zelden hoort hoe het vervolgtraject is opgelost zeker wanneer er wordt geschikt of via mediation een oplossing wordt getroffen. Is iemand dan een fraudeur of gewoon een persoon die koos voor betalen om van het gedoe af te zijn?

Meer fundamenteel zit je bij juridische systemen met het probleem dat er geen objectieve waarheid is. Een juridische stelling is waar omdat de rechter als orakel zégt dat deze waar is, en zelfs dan is het alleen maar waar totdat in hoger beroep de uitspraak anders blijkt. En die feedbacklus kan zomaar een paar jaar duren ook. Dus je kunt je systeem wel verbeteren op basis van nieuwe constateringen en nieuwe gegevens, maar om dat zelflérend te noemen gaat me echt veel te ver.

Arnoud

Het stelen van een AI is eenvoudiger dan je denkt, las ik bij Wired. Hoewel de algoritmes voor zelfdenkende en -lerende systemen uiteraard als supergeheim en bizar waardevol gezien worden, blijkt het mogelijk de werking vrijwel exact te repliceren. Mag dat?

De basis van vrijwel alle zelflerende systemen is in principe hetzelfde. Je voert het systeem een hoop trainingsinvoer, waarbij je meteen aangeeft wat de gewenste uitvoer is. Deze bak met mails is spam, deze mails zijn legitiem, het ding kauwt een tijdje en weet vervolgens nieuwe mails keurig als spam of legitiem te classificeren. Van tijd tot tijd moet je dat bijsturen, want wellicht zat er iets geks in je trainingsset. Zo kreeg ik een tijdlang geen mails uit China meer omdat in mijn trainingsset de spam voor 40% uit China kwam en mijn legitieme mail nul.

Het stelen van een AI gebeurt eigenlijk op dezelfde manier. Je kunt zo’n AI meestal via internet aanroepen (via zijn API). Dus wat je doet, is simpel: stuur een stapel data uit je trainingsset met die API en kijk wat de originele AI zegt. De antwoorden stop je in je eigen AI in zijn trainingsfase, waarmee je dus je eigen AI precies leert te denken als de originele AI.

Is dat legaal? Op het eerste gezicht wel. Hooguit als je zegt, de Terms of Service van die API verbieden het aanroepen met als doel het klonen van de AI en/of het extraheren van alle informatie. Maar dat is alleen maar contractbreuk, daar kun je niet zo veel mee.

In Europa is er misschien nog een optie: het databankenrecht. Wij kennen sinds eind jaren negentig aparte bescherming voor databanken met waardevolle informatie, los van het auteursrecht. Een databank is beschermd als hij het resultaat is van een substantiële investering in tijd, geld of moeite. Iets preciezer, een databank is:

een verzameling van werken, gegevens of andere zelfstandige elementen die systematisch of methodisch geordend en afzonderlijk met elektronische middelen of anderszins toegankelijk zijn en waarvan de verkrijging, de controle of de presentatie van de inhoud in kwalitatief of kwantitatief opzicht getuigt van een substantiële investering;

Met enige goede wil is een zelflerende AI prima in deze definitie te passen volgens mij. De brokjes kennis zijn “zelfstandige elementen”, die geordend zijn Hooguit kun je je afvragen of die blokjes kennis apart op te vragen zijn, maar als een AI een uitlegmodule heeft (“dit is spam want het komt uit China en bevat spelfouten in de titel”) dan lijkt me ook daar wel aan voldaan.

Onder het databankenrecht is het verboden een databank te kopiëren, maar ook het herhaald en systematisch opvragen van stukjes inhoud is verboden als je daarmee de normale exploitatie van de databank verhindert. En dat is volgens mij wel het geval als je een AI-databank kloont met deze truc.

Bewijzen lijkt me alleen buitengewoon ingewikkeld (tenzij je zo dom bent alles vanaf één IP-adres te doen) want je hebt in feite te maken met twee zwarte dozen die dezelfde uitvoer leveren bij dezelfde invoer. Maar je moet bewijzen dat de wérking daarvan hetzelfde is. Ik heb geen idee hoe je dát voor elkaar gaat krijgen. Dus praktisch gezien zie ik weinig manieren om juridisch wat te doen tegen het klonen van je AI.

Arnoud

Tag: zelflerende systemen

Juridische beslissystemen zijn helemaal niet zelflerend

Mag je een kunstmatige intelligentie klonen via zijn API?