Mag je een kunstmatige intelligentie klonen via zijn API?

aapje-api.pngHet stelen van een AI is eenvoudiger dan je denkt, las ik bij Wired. Hoewel de algoritmes voor zelfdenkende en -lerende systemen uiteraard als supergeheim en bizar waardevol gezien worden, blijkt het mogelijk de werking vrijwel exact te repliceren. Mag dat?

De basis van vrijwel alle zelflerende systemen is in principe hetzelfde. Je voert het systeem een hoop trainingsinvoer, waarbij je meteen aangeeft wat de gewenste uitvoer is. Deze bak met mails is spam, deze mails zijn legitiem, het ding kauwt een tijdje en weet vervolgens nieuwe mails keurig als spam of legitiem te classificeren. Van tijd tot tijd moet je dat bijsturen, want wellicht zat er iets geks in je trainingsset. Zo kreeg ik een tijdlang geen mails uit China meer omdat in mijn trainingsset de spam voor 40% uit China kwam en mijn legitieme mail nul.

Het stelen van een AI gebeurt eigenlijk op dezelfde manier. Je kunt zo’n AI meestal via internet aanroepen (via zijn API). Dus wat je doet, is simpel: stuur een stapel data uit je trainingsset met die API en kijk wat de originele AI zegt. De antwoorden stop je in je eigen AI in zijn trainingsfase, waarmee je dus je eigen AI precies leert te denken als de originele AI.

Is dat legaal? Op het eerste gezicht wel. Hooguit als je zegt, de Terms of Service van die API verbieden het aanroepen met als doel het klonen van de AI en/of het extraheren van alle informatie. Maar dat is alleen maar contractbreuk, daar kun je niet zo veel mee.

In Europa is er misschien nog een optie: het databankenrecht. Wij kennen sinds eind jaren negentig aparte bescherming voor databanken met waardevolle informatie, los van het auteursrecht. Een databank is beschermd als hij het resultaat is van een substantiële investering in tijd, geld of moeite. Iets preciezer, een databank is:

een verzameling van werken, gegevens of andere zelfstandige elementen die systematisch of methodisch geordend en afzonderlijk met elektronische middelen of anderszins toegankelijk zijn en waarvan de verkrijging, de controle of de presentatie van de inhoud in kwalitatief of kwantitatief opzicht getuigt van een substantiële investering;

Met enige goede wil is een zelflerende AI prima in deze definitie te passen volgens mij. De brokjes kennis zijn “zelfstandige elementen”, die geordend zijn Hooguit kun je je afvragen of die blokjes kennis apart op te vragen zijn, maar als een AI een uitlegmodule heeft (“dit is spam want het komt uit China en bevat spelfouten in de titel”) dan lijkt me ook daar wel aan voldaan.

Onder het databankenrecht is het verboden een databank te kopiëren, maar ook het herhaald en systematisch opvragen van stukjes inhoud is verboden als je daarmee de normale exploitatie van de databank verhindert. En dat is volgens mij wel het geval als je een AI-databank kloont met deze truc.

Bewijzen lijkt me alleen buitengewoon ingewikkeld (tenzij je zo dom bent alles vanaf één IP-adres te doen) want je hebt in feite te maken met twee zwarte dozen die dezelfde uitvoer leveren bij dezelfde invoer. Maar je moet bewijzen dat de wérking daarvan hetzelfde is. Ik heb geen idee hoe je dát voor elkaar gaat krijgen. Dus praktisch gezien zie ik weinig manieren om juridisch wat te doen tegen het klonen van je AI.

Arnoud