Is Meta’s LLaMa 3 model echt open source of niet?

Bron: LLaMA 3 Github repository, Meta

Meta brengt Llama 3 binnen een maand uit, zo las ik bij Tweakers. Het gaat niet om één model, maar om een samensmelting van meerdere modellen die samen Llama 3 vormen. Over de kracht laat ik me even niet uit, maar ik lees overal dat het model “open source” is. En dat is hier niet zomaar een term: het kan het verschil maken tussen wel of niet onder de AI Act vallen.

De FAQ van Meta zelf noemt het een maatwerk commerciële licentie:

Llama models are licensed under a bespoke commercial license that balances open access to the models with responsibility and protections in place to help address potential misuse. Our license allows for broad commercial use, as well as for developers to create and redistribute additional work on top of Llama models. We want to enable more innovation in both research and commercial use cases, but believe in taking a responsible approach to releasing AI technologies.
Alleen al deze tekst wijst erop dat we het niet echt open source kunnen noemen. De open source definitie eist immers het tegenovergestelde van “responsible approach”, namelijk “No Discrimination Against Fields of Endeavor”. Alles moet kunnen, ook Het Kwaad, als je dat zou willen.

De licentie van Llama 3 bevat inderdaad forse restricties op de gebruikelijke vrijheden die we in open source kennen:

  • Je wordt verplicht je aan de wet én de AUP van Meta te houden. Dat eerste lijkt triviaal, maar waar bemoeit Meta zich mee, mijn compliance is iets tussen mij en de toezichthouder. En dat tweede is natuurlijk wel een probleem want AUP’s kunnen wel van alles zeggen.
  • Je mag geen andere LLM’s trainen met Llama of haar output.
  • Als je meer dan 700 miljoen actieve maandelijkse gebruikers hebt, dan moet je een aparte licentie kopen.
  • Een rechtskeuze voor Californië en een forumkeuze aldaar.
Twijfelachtig is de reclame-eis (“Built with Meta Llama 3”), dit doet denken aan de aloude “All advertising materials mentioning features or use of this software must display the following acknowledgement”-tekst uit de BSD licentie. Die wordt meestal niet als problematisch gezien, maar het maakt de licentie GPL-incompatibel.

Ook staat er een patentengifpil in:

c. If you institute litigation or other proceedings against Meta or any entity (including a cross-claim or counterclaim in a lawsuit) alleging that the Llama Materials or Meta Llama 3 outputs or results, or any portion of any of the foregoing, constitutes infringement of intellectual property or other rights owned or licensable by you, then any licenses granted to you under this Agreement shall terminate as of the date such litigation or claim is filed or instituted. You will indemnify and hold harmless Meta from and against any claim by any third party arising out of or related to your use or distribution of the Llama Materials.
Deze is niet nieuw: de Mozilla Public License versie 2 had al zo’n bepaling die zegt dat als jij een octrooirechtszaak start tegen iemand wegens inbreuk veroorzaakt door de MPL-software, dan vervalt je licentie op de software. Daarmee zijn dan auteursrechtelijke tegenclaims mogelijk. Apache heeft dat overgenomen.

De clausule is hier generieker: ieder IE-recht, niet alleen octrooien. En dat is logisch, want de grote zorg van Meta is aangeklaagd worden voor auteursrechtinbreuk door wat er in de trainingsdata zit of wat Llama voor uitvoer geeft. Gezien de precedenten lijkt dat niet erg genoeg om het label “open source” te ontzeggen.

Het is in zoverre van belang omdat de AI Act in artikel 2 lid 12 bepaalt dat

12. This Regulation does not apply to to AI systems released under free and open-source licences, unless they are placed on the market or put into service as high-risk AI systems or as an AI system that falls under Article 5 or 50.
Llama 3 is een zogeheten general-purpose AI, geen AI systeem. Hiervoor gelden dan de iets generiekere verplichtingen van artikel 53, zoals uitgebreide technische documentatie, API documentatie en een uitleg over gebruikte bronnen (waar auteursrechthebbenden dan in kunnen grasduinen). De documentatieplichten vervallen voor open source modellen mits
2. The obligations set out in paragraph 1, points (a) and (b), shall not apply to providers of AI models that are released under a free and open-source licence that allows for the access, usage, modification, and distribution of the model, and whose parameters, including the weights, the information on the model architecture, and the information on model usage, are made publicly available. This exception shall not apply to general-purpose AI models with systemic risks.
Het moet allereerst dus gaan om een open source model, en daarbij moeten de parameters van het AI model zelf (de weights en architectuur) ook nog eens openbaar zijn. Dat laatste heeft Meta wél gedaan (“open weights“), en ik heb sterk het vermoeden dat zo veel mogelijk buiten de AI Act vallen daarbij een doelstelling was.

Het onderliggende probleem is dat er niet écht een definitie van FOSS (free and open-source software) is. Noch OSI noch de FSF hebben een gezaghebbende stem, al lijkt me erkenning door een of beiden wel zwaarwegend. Het zou me niets verbazen als Meta inzet op dat “that allows for the access, usage, modification, and distribution of the model” en gaat betogen dat haar licentie dat toestaat – waarbij de licentiebeperkingen voor het goede doel zijn, en dus zouden moeten mogen. (Overweging 102 helpt hierbij niets.)

Arnoud

5 reacties

  1. Ik zie dit als misleiding vanuit Meta. Open Source is een term met een vrij concrete betekenis en iets Open Source noemen terwijl je niet aan de eisen voldoet, moet niet door de beugel kunnen.

    In England heeft de rechtbank hier al eerder een uitspraak over gedaan, en ik zou zo’n jurisprudentie hier ook verwelkomen.

    False advertising to call software open source when it’s not, says court

    https://www.theregister.com/2022/03/17/courtopensource/

    1. De Open Source Initiative deelt jouw visie:

      OSI is pleased to see that Meta is lowering barriers for access to powerful AI systems. Unfortunately, the tech giant has created the misunderstanding that LLaMa 2 is “open source” – it is not. […] the Meta policy prohibits use in several areas that might be highly beneficial to society, such as regulated/controlled substances and use for critical infrastructure. Even something that sounds as simple as “you must follow the law” is problematic in practice. What if the law in different places is inconsistent? What if the law is unjust? — https://opensource.org/blog/metas-llama-2-license-is-not-open-source

      Dankzij dit soort fratsen, worden AI governance/beleidsmakers nu haast gedwongen om strenge regels op te leggen voor open-source AI.

      Indeed, there are likely economic, strategic, and reputational benefits for a company to ‘open-source’ a model in this way. Open-source innovation building on publicly available architectures can easily be reincorporated into the model developer’s downstream products. “Openness” also has a reputationally positive connotation. “Openwashing” is a term that describes companies who spin an appearance of open-source and open-licensing for marketing purposes, while continuing proprietary practices. — Open-Sourcing Highly Capable Foundation Models — Seger et al.

      Het is uiteindelijk een commercieel model, gemaakt door dure experts, vele miljoenen aan rekenkracht en train data, dus men wil dezelfde regels opleggen als aan bedrijven zoals Google en OpenAI. Echter, elk “echt” open-source project heeft dan een legale afdeling nodig, terwijl Meta haar “open-source” project mag misbruiken om marktleider te worden: anti-open-source by pseudo-open-source.

      Ik vermoed ook het “verplaatsen” van verantwoordelijkheid naar de eindgebruiker: Niet Meta was slordig met veiligheid, maar de eindgebruiker was fout bezig. Maar er worden aan alle kanten vreemde spelletjes gespeeld: “regulatory capture” of voorwaardes stellen dat je ook een team aan veiligheid/AI ethics experts hebt, is natuurlijk een bedrijfscompetitie-element (die je wel aan een bedrijf als Meta zou kunnen opleggen, maar dan weer niet aan een niet-commercieel open-source product.)

      De strategie voor Meta is geforceerd gepresenteerd als “open-source” en “grass-roots”, maar is werkelijk ingegeven door commerciele motieven en een legale afdeling die zoveel mogelijk probeert onder enkele vorm van aansprakelijkheid af te komen. Daarom vast regels in de licentie zoals “niet gebruiken voor kritieke infrastructuur”, want gaat er dan iets mis, dan kloppen ze ook bij Meta aan.

  2. Wat er hier gebeurt past precies in het patroon van gedragingen dat Meta laat zien. Ze willen zich niet aan de EUropese wetten houden dus gaan ze kijken hoe ver ze over het lijntje kunnen gaan voordat ze op de vingers getikt worden.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.