De wassen neus van ‘open’ kunstmatige intelligentie

OpenClipart-Vectors / Pixabay

Veel bedrijven die met kunstmatige intelligentie bezig zijn, noemen zichzelf ‘open’: ze zijn transparant over wat ze doen en hun software is voor iedereen gratis toegankelijk. Zo opende De Correspondent onlangs. Veel datamodellen – zoals LLaMa van Meta – zijn zo open beschikbaar, in tegenstelling tot het OpenAI GPT model dat stevig op slot zit. Maar hoe open is dat nou echt?

Open source heeft het internet gewonnen, daar is iedereen het wel over eens ondertussen. Het model waarbij je broncode deelt en samen bugs oplost onder het motto “with enough eyeballs all bugs are shallow” blijkt de meestgebruikte software te hebben opgeleverd waar zo ongeveer alle internetdiensten op gebaseerd zijn.

Velen willen meeliften op dit succes, dus alles en z’n broer heet “open dit” of “open dat”, maar je moet altijd wel even verder kijken of het écht open is. Want dat betekent niet alleen “je kunt het zonder registratie of aanvraag te pakken krijgen” maar ook “je mag er écht alles mee doen dat je wilt, inclusief aanpassen en ons ermee beconcurreren”. De Business Source License bijvoorbeeld is dus géén open source.

Men citeert in het artikel onderzoek van drie taalwetenschappers van de Radboud Universiteit in Nijmegen, die zo’n dertig verschillende modellen scoorden op dertien variabelen. Specifiek voor LLaMa2 concludeert men:

Zo blijven de data waarop het model is getraind geheim en is Meta minimaal scheutig met de onderliggende computercode. Er is geen erkende wetenschappelijke onderbouwing van het model en de technische uitleg haalt een ruime onvoldoende. In de techwereld zijn dit allemaal gebruikelijke standaarden waaraan je moet voldoen, wil je met goed fatsoen het label ‘open source’ kunnen dragen. Llama2 voldoet aan geen enkele.
De meeste andere modellen komen niet veel beter uit het onderzoek. Dat wordt nog ingewikkeld: de AI Act komt eraan en die gaat óók aan dit soort modellen regels stellen. Die regels gaan onder meer over transparantie en verantwoording, waar komt je data vandaan, hoe representatief en volledig ben je bijvoorbeeld. Hierover hadden we laatst dat onderzoek naar LLMs dat concludeerde dat niet eentje echt voldeed. (Bloom, dat daar het beste scoorde, komt ook nu het hoogste eruit.)

De term ‘open source’ is dan natuurlijk een mooie schaamlap om te doen alsof je model maatschappelijk heel nuttig is. Hopelijk zal de nieuwe wet ervoor zorgen dat we ook daadwerkelijk openheid gaan krijgen.

Arnoud

 

 

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.