Is het toegestaan om andermans AI te klonen?

Een lezer vroeg me:

Ik las dat Stanford een AI-tekstmodel had gebouwd dat voortbouwt op het Davinci model van OpenAI. De resultaten zijn verrassend goed ondanks hun veel kleinere aanpak, maar wat ik me nu afvroeg is of dit wel toegestaan is? Je zou zeggen dat dat model toch op een of andere manier beschermd moet zijn?
Vanuit juridisch perspectief kan ik niets onrechtmatigs ontdekken in wat deze groep Stanford-onderzoekers heeft gedaan. Dat komt neer op een eigen set met prompts en antwoorden aanleveren aan OpenAI, waarbij men het Davinci-003 taalmodel gebruikte. Dit model was de basis voor GPT-3, en kan via de API van OpenAI aangeroepen worden. Stanford deed dat vele malen en was daar zo’n $500 aan kwijt. Maar toen hadden ze wel wat, namelijk een dataset met 52.000 prompt/uitvoer-paren waar ze hun eigen AI op konden trainen.

Dit is een klassieke kloon-aanval, waarover ik al in 2016 blogde:

Is dat legaal? Op het eerste gezicht wel. Hooguit als je zegt, de Terms of Service van die API verbieden het aanroepen met als doel het klonen van de AI en/of het extraheren van alle informatie. Maar dat is alleen maar contractbreuk, daar kun je niet zo veel mee.
In Europa zou men wellicht nog van een schending van het databankenrecht kunnen spreken, maar Amerikaanse organisaties kunnen dat niet omdat de VS geen databankenrecht erkent. (Ze kunnen dat dus ook niet tegen een Europese entiteit die alhier deze kloon-aanval uitvoert.)

De Terms of Use van OpenAI hebben hier inderdaad een bepaling over:

(iii) use output from the Services to develop models that compete with OpenAI;
Het handelen van de Stanford-mensen is het gebruik van uitvoer van de diensten om modellen te maken, maar ik twijfel over dat “compete with OpenAI”. Men zegt immers:
We emphasize that Alpaca is intended only for academic research and any commercial use is prohibited. There are three factors in this decision: First, Alpaca is based on LLaMA, which has a non-commercial license, so we necessarily inherit this decision. Second, the instruction data is based on OpenAI’s text-davinci-003, whose terms of use prohibit developing models that compete with OpenAI. Finally, we have not designed adequate safety measures, so Alpaca is not ready to be deployed for general use.
Zou OpenAI er toch een issue van willen maken, dan hebben ze hier de mazzel dat deze researchers aangeven welke data ze gebruikt hebben. Want als ze er dat niet zelf bij zetten, dan is de bewijsproblematiek meteen onoverkomelijk volgens mij.

Arnoud

2 reacties

  1. Teveel TV en te weinig kennis, maar US kent toch ‘discovery’ in civielrecht? Liegen in een ‘deposition’ is meineed en dat is dan weer strafrecht. Dat geeft toch wel enige kans om in ieder geval tussen US-partijen de zaakjes helder op tafel te krijgen, zelfs zonder disclosure vooraf.

    1. Het is wel nodig dat je “in de basis” een zaak hebt, met redelijke aanwijzingen van contractbreuk. En vergeet niet dat discovery twee kanten op werkt, het biedt jouw concurrent mogelijkheden om jouw bedrijfsgeheimen op te vragen.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.