Is Meta’s LLaMa 3 model echt open source of niet?

Bron: LLaMA 3 Github repository, Meta

Meta brengt Llama 3 binnen een maand uit, zo las ik bij Tweakers. Het gaat niet om één model, maar om een samensmelting van meerdere modellen die samen Llama 3 vormen. Over de kracht laat ik me even niet uit, maar ik lees overal dat het model “open source” is. En dat is hier niet zomaar een term: het kan het verschil maken tussen wel of niet onder de AI Act vallen.

De FAQ van Meta zelf noemt het een maatwerk commerciële licentie:

Llama models are licensed under a bespoke commercial license that balances open access to the models with responsibility and protections in place to help address potential misuse. Our license allows for broad commercial use, as well as for developers to create and redistribute additional work on top of Llama models. We want to enable more innovation in both research and commercial use cases, but believe in taking a responsible approach to releasing AI technologies.
Alleen al deze tekst wijst erop dat we het niet echt open source kunnen noemen. De open source definitie eist immers het tegenovergestelde van “responsible approach”, namelijk “No Discrimination Against Fields of Endeavor”. Alles moet kunnen, ook Het Kwaad, als je dat zou willen.

De licentie van Llama 3 bevat inderdaad forse restricties op de gebruikelijke vrijheden die we in open source kennen:

  • Je wordt verplicht je aan de wet én de AUP van Meta te houden. Dat eerste lijkt triviaal, maar waar bemoeit Meta zich mee, mijn compliance is iets tussen mij en de toezichthouder. En dat tweede is natuurlijk wel een probleem want AUP’s kunnen wel van alles zeggen.
  • Je mag geen andere LLM’s trainen met Llama of haar output.
  • Als je meer dan 700 miljoen actieve maandelijkse gebruikers hebt, dan moet je een aparte licentie kopen.
  • Een rechtskeuze voor Californië en een forumkeuze aldaar.
Twijfelachtig is de reclame-eis (“Built with Meta Llama 3”), dit doet denken aan de aloude “All advertising materials mentioning features or use of this software must display the following acknowledgement”-tekst uit de BSD licentie. Die wordt meestal niet als problematisch gezien, maar het maakt de licentie GPL-incompatibel.

Ook staat er een patentengifpil in:

c. If you institute litigation or other proceedings against Meta or any entity (including a cross-claim or counterclaim in a lawsuit) alleging that the Llama Materials or Meta Llama 3 outputs or results, or any portion of any of the foregoing, constitutes infringement of intellectual property or other rights owned or licensable by you, then any licenses granted to you under this Agreement shall terminate as of the date such litigation or claim is filed or instituted. You will indemnify and hold harmless Meta from and against any claim by any third party arising out of or related to your use or distribution of the Llama Materials.
Deze is niet nieuw: de Mozilla Public License versie 2 had al zo’n bepaling die zegt dat als jij een octrooirechtszaak start tegen iemand wegens inbreuk veroorzaakt door de MPL-software, dan vervalt je licentie op de software. Daarmee zijn dan auteursrechtelijke tegenclaims mogelijk. Apache heeft dat overgenomen.

De clausule is hier generieker: ieder IE-recht, niet alleen octrooien. En dat is logisch, want de grote zorg van Meta is aangeklaagd worden voor auteursrechtinbreuk door wat er in de trainingsdata zit of wat Llama voor uitvoer geeft. Gezien de precedenten lijkt dat niet erg genoeg om het label “open source” te ontzeggen.

Het is in zoverre van belang omdat de AI Act in artikel 2 lid 12 bepaalt dat

12. This Regulation does not apply to to AI systems released under free and open-source licences, unless they are placed on the market or put into service as high-risk AI systems or as an AI system that falls under Article 5 or 50.
Llama 3 is een zogeheten general-purpose AI, geen AI systeem. Hiervoor gelden dan de iets generiekere verplichtingen van artikel 53, zoals uitgebreide technische documentatie, API documentatie en een uitleg over gebruikte bronnen (waar auteursrechthebbenden dan in kunnen grasduinen). De documentatieplichten vervallen voor open source modellen mits
2. The obligations set out in paragraph 1, points (a) and (b), shall not apply to providers of AI models that are released under a free and open-source licence that allows for the access, usage, modification, and distribution of the model, and whose parameters, including the weights, the information on the model architecture, and the information on model usage, are made publicly available. This exception shall not apply to general-purpose AI models with systemic risks.
Het moet allereerst dus gaan om een open source model, en daarbij moeten de parameters van het AI model zelf (de weights en architectuur) ook nog eens openbaar zijn. Dat laatste heeft Meta wél gedaan (“open weights“), en ik heb sterk het vermoeden dat zo veel mogelijk buiten de AI Act vallen daarbij een doelstelling was.

Het onderliggende probleem is dat er niet écht een definitie van FOSS (free and open-source software) is. Noch OSI noch de FSF hebben een gezaghebbende stem, al lijkt me erkenning door een of beiden wel zwaarwegend. Het zou me niets verbazen als Meta inzet op dat “that allows for the access, usage, modification, and distribution of the model” en gaat betogen dat haar licentie dat toestaat – waarbij de licentiebeperkingen voor het goede doel zijn, en dus zouden moeten mogen. (Overweging 102 helpt hierbij niets.)

Arnoud

Brussel trekt de teugels aan bij drie grote pornosites

Beeld: Daniel Voyager, CC-BY

Pornosites Pornhub, XVideos en Stripchat moeten vanaf aankomende week veel beter controleren welke video’s er op de site staan en hoe oud gebruikers zijn. Dat meldde Nu.nl vorige week. Wederom de Digital Services Act (DSA) aan het werk. Er lopen hier twee (belangrijke) dingen door elkaar, dus let’s unpack. 

Allereerst over leeftijdsverificatie. De DSA bevat in artikel 28 een expliciete plicht om “passende en evenredige maatregelen [te nemen] om een hoog niveau van privacy, veiligheid en bescherming van minderjarigen binnen hun dienst te waarborgen”. Het niet tonen van seksueel expliciet materiaal aan minderjarigen valt binnen dat doel, en is dus iets waar je maatregelen voor moet nemen.

Even verderop – bij artikel 34 – staat iets vergelijkbaars. De dienstverleners moeten maatregelen zoeken om risico’s voor minderjarigen te mitigeren. Leeftijdsverificatie ligt wederom voor de hand, al blijft het al jaren bij min of meer hetzelfde lijstje. Een creditcardbetaling werkt aardig, al kan die worden uitgeleend. Getraind personeel een gesprek laten voeren om te horen of iemand 18+ is, veel geopperd maar oké laat maar het gegniffel achterin geeft aan dat dat bij deze toepassing niet gaat werken.

Hoe moet het dan wel? Geen idee, maar het leuke van de DSA is dat die er het probleem van de dienstverlener van maakt. Jij haalt de bakken met geld binnen in onze markt, dus ga jij maar bedenken hoe je dit effectiever aan gaat pakken.

Hetzelfde geldt over die controle op video’s. Dat is een bekend probleem, met name bij wat men “amateur” beelden noemt en ook daar moet de industrie met een oplossing gaan komen. De straf is in beide gevallen hetzelfde: beperking of sluiting van de dienst in de Europese Unie.

Arnoud

Wat kost een biertje als de prijs achter een QR code zit?

"Beer hyperlinked" by Thinkmobi is licensed under CC BY-NC 2.0

Een lezer vroeg me:

Dit weekend was ik bij een café dat geen prijzen vermeldt op het bord boven de bar met alle speciaalbieren en andere drank. Daarvoor moet je een QR code scannen die op tafel geplakt is. Je bestelt nog wel ouderwets bij het personeel, dus niet via een QR app. De biertjes waren goed maar wel erg duur. Had ik juridisch een punt kunnen maken van deze manieren van prijzen communiceren?
Oké, bierdrinken is nu ook al ict-recht. Maar goed, laten we eens kijken wat er geregeld is over de prijs bij een overeenkomst.

Voor veel mensen klinkt het verrassend, maar je kunt iets kopen zonder te weten dat het kost. Het is bij ‘gewone’ aankopen namelijk niet verplicht de prijs vooraf expliciet te zetten. Bij online verkoop is dat anders (art. 6:230m BW), daar is een overeenkomst niet rechtsgeldig gesloten zonder voorafgaande duidelijke vermelding van alle prijzen.

De wet (art. 7:4 BW) bepaalt voor de situatie van een niet-vermelde prijs het volgende:

Wanneer de koop is gesloten zonder dat de prijs is bepaald, is de koper een redelijke prijs verschuldigd; bij de bepaling van die prijs wordt rekening gehouden met de door de verkoper ten tijde van het sluiten van de overeenkomst gewoonlijk bedongen prijzen.
Hier staan twee dingen. Allereerst ben je in zo’n geval verplicht een “redelijke prijs” te betalen. Ten tweede is de prijslijst van de verkoper een belangrijke input bij bepalen of de prijs redelijk is.

Meestal komt de redenering neer op eerst kijken of de prijs op de prijslijst redelijk is. Zo ja, dan is dat de prijs. Zo nee, dan gaat de prijs naar een marktconforme prijs, zeg maar wat een biertje van die categorie gemiddeld kost in die stad.

Het maakt dus uiteindelijk niet uit of de prijs achter een QR code verstopt zit of op een prijslijst die je apart moet vragen bij de balie. Waar het om gaat, is of deze vooraf gemeld is – dan zit je eraan vast, hoe onredelijk ook – of dat je het pas achteraf kon ontdekken.

Een discussiepunt is nog wel óf de prijs gemeld is of niet, als op de tafel staat “scan de QR code voor de prijzen”. Het is immers niet verplicht om vooraf te melden wat de prijs is, mensen ergens heen wijzen waar ze deze kunnen zien is ‘gewoon’ een manier van de prijs melden. En anno 2024 is het denk ik wel redelijk te verwachten dat men QR codes kan scannen, of dat men aan de bel trekt “mijn telefoon is leeg, heb je een papieren prijslijst?”

Arnoud

Kan de bank je verplichten je bitcoins te verkopen op straffe van verlies bankrekening?

Photo by RDNE Stock project on Pexels

Kan de bank je verplichten om afstand te doen van je bitcoins? Die vraag kwam ik tegen op de blog van het AMLC. Het ligt iets juridischer: schiet een bank tekort in haar zorgplicht door een klant mede te delen dat zij de bankrelatie zou beëindigen als deze haar bitcoins niet zou verkopen. Voor iedereen die naar de “Sell”-knop grijpt: het antwoord is negatief.

Het AMLC legt uit:

Het gaat om een bedrijf (Decos, AE) dat zich richt op de ontwikkeling van nieuwe technologie, waaronder blockchain. Sinds 2013 kocht en verkocht het bedrijf zo nu en dan bitcoins. Het bedrijf gebruikte haar posities in bitcoin vooral als reserve om liquiditeit aan te vullen. Eens per jaar werden delen verkocht en in het jaar daarop werden bitcoins aangekocht.
De Rabobank deed op zeker moment onderzoek naar deze klant van haar, en ontdekte “dat de onderneming middels het aan- en verkopen van Bitcoins, alsmede het minen van virtuele valuta, niet voldoet aan het beleid Rabobank virtuele valuta”. Ophouden daarmee dus, of je gaat eruit als klant. Voor een bedrijf een kleine ramp natuurlijk.

Wat was dan de noncompliance, of iets algemener welk beleid heeft de Rabobank?

“Het CDD beleid is uitsluitend voor intern gebruik, deze kunnen we helaas niet delen. Dit betekent dat wij ook op onze website geen informatie hebben over ons beleid.”
Een bank heeft volgens de wet een zorgplicht, en mag een bancaire relatie daarom niet zonder meer eenzijdig opzeggen op grond van het beleid en/of de eigen algemene voorwaarden. Daar staat tegenover dat een bank ook bepaalde regels moet navolgen, zoals de antiwitwasregels uit de Wwft.

Levert handel in bitcoins een risico rond die regels om? Niet direct:

Dat Rabobank strikt beleid hanteert ten aanzien van (de handel) in virtuele valuta door ondernemingen is gelet op de door Rabobank genoemde risico’s niet onbegrijpelijk. Het staat Rabobank in beginsel vrij om dit beleid te voeren. Ook wanneer dit beleid betekent dat zakelijke klanten geen virtuele valuta via Rabobank kunnen verhandelen of aanhouden. De stelling van Rabobank dat de Wwft haar ertoe verplicht dit beleid te voeren, berust echter op een onjuiste interpretatie van de door Rabobank aangehaalde bepalingen uit deze wet.
De wet eist immers dat je onderzoek doet bij verdachte transacties, niet dat je de klant eruit gooit als het verdacht riekt.

Dan blijft over de contractsvrijheid: mag Rabobank als private partij ervoor kiezen om strenger beleid te maken dan de wet van haar vergt? Ja, aldus het Gerechtshof. Die contractsvrijheid is er, zolang je er maar netjes mee omgaat. Wederom die zorgplicht. En daar gaat het hier op mis:

Op grond van de bancaire zorgplicht is Rabobank verplicht haar klanten te informeren over haar beleid op het moment dat zij daar om vragen.
Je moet als zakelijke klant bij een bank weten dat er vast regels zullen zijn over virtuele valuta, maar je hoeft echt niet te weten dat een bank ze wel eens zou kunnen verbieden. Als dát het beleid is, dan moet dat expliciet uitgedragen worden zodat je je keuze voor een bank daarop kunt afstemmen.

De volgende stap is dat je de toepassing van het beleid motiveert. Oftewel: welke risico’s zien we hier. Enkel zeggen “er kúnnen risico’s zijn dus het mag never nooit niet” is niet genoeg:

Rabobank heeft echter niet aangevoerd dat zich verhoogde risico’s voordeden bij Decos. Rabobank heeft daarmee haar aanzegging in feite alleen gebaseerd op (categoriale) bezwaren aangaande virtuele valuta. Ten aanzien van de aan- en verkoop van bitcoins door Decos heeft Rabobank op geen enkel moment duidelijk gemaakt op basis waarvan het risico zodanig hoog werd geacht dat er van Decos mocht worden geëist dat zij haar volledige portefeuille binnen drie maanden zou verkopen.
Als laatste is die periode van drie maanden ook nog eens onredelijk kort.
Gezien de langlopende bancaire relatie, het grote belang dat Decos had bij de voortzetting daarvan en het gegeven dat de mogelijkheid van overstappen naar een andere bank op zijn minst onzeker was en ook meer tijd in beslag zou nemen dan drie maanden, had Rabobank aan haar eisen in elk geval een redelijke(re) termijn moeten verbinden.
Alles bij elkaar had de bank dus onrechtmatig gehandeld door deze verplichting af te dwingen. Alleen, wat is de schade? Het bedrijf hanteerde de bitcoins als een soort reservepotje voor als de gewone geldstromen wat krapper werden. Het is dan logisch dat ze normaliter in ieder geval een deel van de bitcoins zouden hebben behouden. Maar welk deel, en of dingen als transactiekosten meewegen, dat moet in een aparte procedure worden bepaald.

Ondertussen lijk ik beleid te ontwaren op de Rabobank-site.

Arnoud

Pakje sigaretten kopen? Eerst even je gezicht scannen, mag dat?

(Bron: RTL Nieuws)

Wie een pakje sigaretten koopt, komt op steeds meer plekken in Nederland een gezichtsscanner tegen. Dat las ik bij RTL Nieuws onlangs. De scanner schat je leeftijd (25+ of niet) en laat je dan sigaretten kopen (of niet). Enkele rokende lezers stelden me vervolgens de vraag: mag dat eigenlijk wel, inzet van biometrie voor zo’n profileringsdoel? En vooral: wat zegt de aankomende AI Act?

De AI Act is definitief maar nog niet aangenomen (in mijn nieuwe boek lees je alle details). Dat zal in mei gebeuren. Daarna is er twee jaar overgangsrecht, hoewel de zogeheten verboden praktijken al over zes maanden moeten stoppen. En in die lijst (artikel 5) staan de nodige biometrische toepassingen:

  • Emotieherkenning op het werk en in het onderwijs, behalve indien noodzakelijk voor veiligheid of medische redenen (art. 5(1)(f)).
  • Biometrische categorisatie op bijzondere persoonsgegevens, zoals het afleiden van etnische afkomst of seksuele voorkeur (art. 5(1)(g)).
  • Real-time biometrie op afstand in de openbare ruimte voor wetshandhaving (art. 5(1)(h)))
Geen van deze drie is van toepassing op dit systeem. “25 jaar of ouder” zijn is geen bijzonder persoonsgegeven immers.

Diverse toepassingen van biometrie zijn als hoogrisico aangemerkt. De AI Act is daar formeel in; iets is hoogrisico als het op de lijst (Annex III) staat, je hoeft geen eigen inschatting te maken van hoe hoog of hoe ernstig het in jouw geval is. Pas je onder een tekst? Dan ben je hoogrisico.

De eerste toepassing is biometrie op afstand. De AI Act gebruikt hierbij niet een criterium uitgedrukt in meters, maar of je meerdere mensen tegelijkertijd scant (overweging 17, artikel 3 lid 41), met “typisch op afstand” als optionele toevoeging.

De tweede toepassing is emotieherkenning (dus niet op werk of school). Dit is niet van toepassing, want leeftijd is geen emotie.

Blijft over biometrische categorisatie op basis van gevoelige of beschermde kenmerken. Dit komt goed in de buurt: de categorieën zijn dan “25 jaar of ouder” versus “jonger dan 25”, en dit gebeurt op basis van gezichtskenmerken die goed ‘gevoelig’ kunnen zijn. Daarmee moet de leverancier aan een hele berg compliance-verplichtingen voldoen.

Die 25 jaar is overigens gekozen om de foutmarge naar 2% terug te dringen: het verschil zien tussen 17 en 19 is te subtiel kennelijk.

Waar ik vooral mee zit: de gezichtsscan duurt zo te zien op het filmpje minstens zo lang als een ID-kaartscan. (De leverancier spreekt van “rap” maar ik zie echt het tijdsverschil niet.) Je ID moet je altijd kunnen laten zien. Wat is dan precies nog het praktische voordeel van deze AI oplossing ten opzichte van altijd ID laten zien?

Arnoud

Hoe krijg je in Nederland een Amerikaans bedrijf zo ver te luisteren naar de rechter?

Photo by Victor Freitas on Pexels

“Automattic weigerde en stelde dat het vonnis niet op de juiste manier was betekend door eiser en dat de rechtbank niet bevoegd was”, meldde IE-Forum onlangs. De juridische manier om te zeggen “de eigenaar van blogplatform WordPress deed moeilijk toen de rechter zei dat een blog weg moest”. Wat was hier aan de hand?

De kern van de zaak was simpel genoeg. Een meneer werd stevig bedreigd, en een blog gehost bij WordPress was daarbij een belangrijke factor. Kort geding, rechter oordeelt dat de blog als geheel onrechtmatig is en beveelt offline halen daarvan. Uiteraard gaat dat dan op straffe van een dwangsom.

Automattic (de eigenaar van WordPress-het-platform) haalde de blog echter niet offline, en betaalde ook niet de dwangsommen. Daarop stapte de man naar de rechter, waarbij Automattic het verweer opwierp dat hij maar naar Californië moest gaan – de Nederlandse rechter zou onbevoegd zijn. Daar had de rechter weinig moeite mee; zij was wel degelijk bevoegd bij zo’n dwangsom-incasso-procedure (executiegeschil) omdat de rechter van de hoofdzaak dat ook was.

Dan de incasso van inmiddels twee ton aan dwangsommen? Nee, toch niet: nu kwam Automattic met het verhaal dat het vonnis niet juist uitgereikt was (betekend), zodat de startdatum voor de dwangsommen nooit was begonnen te lopen. De personen die de brieven zouden hebben gehad, waren niet bekend en niet bevoegd, de brief naar Amerika was naar het bedrijf zelf gestuurd en niet naar de registered agent, de Engelse vertaling van het exploot miste kerninformatie (45 Rv) – wat cynische ikke dus ‘moeilijk doen’ noemt.

Gelukkig is het recht niet voor één gat te vangen, want het kan niet de bedoeling zijn dat je werkelijk zo moeilijk moes doen om een buitenlands bedrijf aan te spreken. De constructie (art. 54 Rv) is dan ook dat je bij een bedrijf buiten de EU genoeg hebt gedaan als je het vonnis in de Staatscourant hebt gezet en het hebt betekend bij het Nederlands OM (inderdaad, die van de strafzaken).

Dat was hier ook gebeurd en dat was genoeg. Het is dus niét nodig dat je vonnis daadwerkelijk een buitenlandse (niet-EU) partij bereikt heeft, en dat is precies omdat je geen controle hebt over wat er daar gebeurt. Dat de advocaat van Automattic al op 14 april 2022 (een dag na de uitspraak) het vonnis had gehad, is dus niet eens belangrijk.

Blijft over de praktische vraag: wat nu? Want als het bedrijf zich in deze bochten wringt, dan bekruipt mij het gevoel dat ze niet na deze uitspraak ineens heel vriendelijk twee ton overmaken. Maar er zijn meer manieren om aan geld te komen. Met zo’n betekend vonnis kun je namelijk in andere EU-landen beslag laten leggen op geld of rechten die aldaar zijn. Denk aan een rekening waar Europese klanten betalen voor advertenties, de zakenauto van de Europese directeur of de handelsvoorraad ergens in een loods.

Of dat er allemaal is bij een internetbedrijf, kun je je afvragen. Maar wat er wel is, is één vermogensrecht en dat is het merk van Automattic, of beter gezegd het merk WordPress. Dat is immers juridisch gezien ook een vermogensrecht, en daar kun je beslag op leggen. Op korte termijn betekent dat dat Automattic er zelf niets meer mee mag doen, en als ze niet snel betalen dan is (in theorie) de mogelijkheid dat de eiser het merk gaat verkopen om zo die twee ton te verdienen. Ik ben benieuwd of Automattic het zó ver gaat laten komen.

Arnoud

 

 

Wacht, beginnen cloudproviders nu ook al commercialisatierechten te claimen?

“Warning: Vultr (a major cloud provider) is now claiming full perpetual commercial rights over all hosted content”, zo las ik op Reddit. Als je dan meeneemt dat Vultr recent aankondigde een sprint richting AI-clouddiensten te maken, dan snap ik wel dat mensen zich daar zorgen over maken. Is het terecht?

Vultr was er snel bij om de grote klanten gerust te stellen: de betreffende zin eindigt met “for purposes of providing the Services to you”, de standaardfrase waarmee men alle rechten in clouddienstland beperkt tot hetgeen nodig is om de gevraagde dienst te leveren. De “lawyers were overzealous” en het enige doel was indekken “incase we wanted to use it for marketing purposes”.

Dat laatste is eigenlijk altijd het excuusargument geweest: stel we maken een screenshot van onze dienst in een folder en jouw site staat er toevallig op, dan willen we geen claims. Want dat gebeurt immers dagelijks, dat je folders maakt zonder uit te zoeken welke site er in komt. (En dat clouddiensten folders maken.) Ik heb daar nooit echt in geloofd.

Helemaal moeilijk te geloven is dit verhaal wanneer je beseft dat alle data met enige structuur of labeling enorm waardevol is tegenwoordig – de grote AI taalmodellen kunnen maar op één manier concurreren en dat is nóg meer data erin om nóg breder te kunnen papegaaien. Dus als een clouddienst met enorm veel klantdata zichzelf in 2024 een onbeperkt “commercialisatie” recht geeft, dan riekt dat naar “wij verkopen de gehele dataset naar de grote LLM-providers”.

Kennelijk is het een storm in een glas water. Maar stel dat ze wél bedoelden “wij mogen een AI trainen op jouw website”. Had dat dan gemogen? In principe wel: het is een grootzakelijke dienst, en daar gelden vrij weinig juridische beschermingsmaatregelen.

De DSA dan? Die bevat inderdaad enige bepalingen over dienstvoorwaarden. Artikel 14 zegt bijvoorbeeld dat je voorwaarden duidelijk alle beperkingen moeten aangeven waarop je handhaaft. En onder artikel 17 moet je specifiek motiveren op welk artikel je je beroept (en waarom dat opgaat) als je ingrijpt bij content van je klanten. Maar dat gaat allemaal niet over auteursrechten. Ook de DMA verbiedt niet het opeisen van (licenties onder) auteursrecht op materiaal van je klanten.

Blijft over de AVG, ondertussen een beetje het duizenddingendoekje in het recht. Er zitten vast persoonsgegevens van Europeanen in al die data, de grondslag voor gebruik omvat niet het [fictieve] hergebruik van Vult, dus dat is noncompliant. De privacyverklaring van Vult gaat in op de AVG en benoemt onder meer

the processing is in our legitimate interests, which are not overridden by your interests and fundamental rights. Our legitimate interests are to use subscriber, Site user, supplier and customer data to conduct and develop our business activities with them and with others while limiting the use of their personal data to purposes that support the conduct and development of our business; or
Deze omschrijving is nogal breed, “develop our business” kun je prima lezen als “we verkopen het aan een papegaaienkweker”. Ik denk niet dat dat bedoeld is, maar uitsluiten op basis van de tekst kun je het niet. We komen dan uiteindelijk toch weer bij die vraag of je een AI mag trainen met persoonsgegevens. Die laat ik voor nu even zitten.

Arnoud

 

Jort Kelder wint hoger beroep tegen Google over nepadvertenties met zijn beeltenis

"Internet ban" by theglobalpanorama is licensed under CC BY-SA 2.0

Het gerechtshof in Amsterdam heeft Jort Kelder dinsdag in hoger beroep gelijk gegeven in zijn al vier jaar slepende conflict met Google, zo las ik bij NRC. Zij hadden het vonnis niet: die stond bij het onvolprezen Boek9. Dat schrijft persbureau ANP. Het gaat natuurlijk om die berichten waarin we “afscheid nemen” van Kelder als clickbait om cryptomunten te verkopen, al dan niet in de vorm van flessentrekkerij.

In 2022 stapte Kelder (samen met Alexander Klöpping) naar de rechter hierom, maar zonder succes. Ik blogde toen:

De nepadvertenties kennen de meeste mensen wel: een foto van een BN’er met een ietwat cryptische mededeling, zoals “Nederland neemt afscheid van Jort Kelder” of “Klöppings laatste investering jaagt bankiers angst aan” en pas na doorklikken kom je erachter dat het gaat om ‘beleggen’ in cryptovaluta. Waarbij de scam dan is dat je geld betaalt en er niets voor terugkrijgt.
De rechtbank wees de eis af, omdat de zorgplicht van Twitter en Google niet zo ver ging dat ze íeder bericht hadden moeten onderscheppen. Je kunt niet makkelijk automatisch zien of Kelder in een advertentie staat, de teksten zijn verhullend en de sites wisselen van inhoud na een paar dagen zodat de controleur niets bijzonders ziet.

Gelukkig voor de jurisprudentie ging Kelder in hoger beroep, zij het in zijn eentje en alleen nog tegen Google. Het verweer van die laatste was natuurlijk dat ze slechts een doorgeefluik zijn: niet aansprakelijk voor andermans content, maar op whack-a-mole basis best bereid individuele dingen weg te halen.

Je zou zeggen dat dat bij advertenties anders is, omdat die worden gescreend. Maar dat zijn allemaal automatische processen, en puur automatische passieve controle is niet genoeg om content van kleur te laten verschieten tot redactionele inhoud. Google bemoeit zich ook niet inhoudelijk met het hoger of prominenter tonen van deze advertenties.

Moet Google meer doen? Het Hof is net als de rechtbank onder de indruk van de vele maatregelen en de ‘holistische’ aanpak van Google om advertenties te betrappen – cynische ikke leest het als een mooi verhaal om maar niet identiteitscontrole aan de poort te hoeven doen, want dat zou de omzet drukken.

Specifiek op gemelde advertenties had Google wél meer moeten doen. Ook hier ging men ‘holistisch’ te werk:

In april 2020 heeft zij een internationale multidisciplinaire werkgroep opgezet die versneld technische maatregelen heeft ontwikkeld en geïmplementeerd en in juli 2020 heeft zij celebrity sensationalist ads verboden. Niet valt echter in te zien waarom deze nieuw gevonden manieren van omzeiling in de weg hebben gestaan aan het eerder nemen van effectieve maatregelen door Google, en wel zo spoedig mogelijk na kennisneming van de conceptdagvaarding op 10 januari 2020, dan wel op zijn minst onmiddellijk na het gesprek hierover op 19 februari 2020.
Het ging hier namelijk niet om generieke eisen zoals “blokkeer iedere advertentie met mijn gezicht er naast en/of gekoppeld aan mijn naam”. De betreffende advertenties waren simpelweg steeds (vrijwel) dezelfde, op zo’n manier dat een tekstueel filter ze eenvoudig tegen had kunnen houden:
Ook als het [door het ad cloaking] niet goed was vast te stellen of de betreffende advertentie doorlinkte naar een landingspagina waarop bitcoin-investeringen werden aangeboden, had het tonen van de advertenties in elk geval voor (menselijke) verificatie kunnen worden opgeschort op basis van de vaststelling dat de advertentie identieke/zeer gelijksoortige elementen bevat als de bitcoin-advertenties waarover Google door Kelder was geïnformeerd.
Wat betreft die advertenties is het Hof dan snel klaar: die zijn natuurlijk onrechtmatig, en Google had meer moeten doen om ze tegen te houden, dus is zij aansprakelijk voor de door Kelder geleden schade. Alleen, hoe hoog is die schade? Daarover wordt in een vervolgprocedure (schadestaat) nog nader gepuzzeld.

Arnoud

“Zo laat je de data van miljoenen openbare profielen in jouw voordeel werken”

Nee, niet mijn clickbaittitel: “A.I., losgelaten op openbare profielen, kan dan uitkomst bieden” las ik in een advertorial bij Werf&. Velen vroegen mij hoe dat kan, anoniem en AVG-compliant zoeken naar mensen die passen bij je vacature.

De kern, zo legt het bedrijf zelf uit:

Steeds meer mensen zetten hun profiel op ‘openbaar’ op platformen zoals LinkedIn, omdat zij zichtbaar willen zijn voor iemand die naar hen op zoek is. Deze informatie kun je geanonimiseerd gebruiken om algoritmes op te trainen. A.I. kan vervolgens suggesties geven voor objectieve en onbevooroordeelde matches, die talentverspilling tegengaan.
Dat is een mooie pitch, maar ik hóór collectief de wenkbrauwen omhoog gaan bij alle CAICOs en FGs. Want data echt anonimiseren in de zin van de AVG is niet triviaal. Vrijwel altijd bedoelt men “pseudonimiseren”, oftewel we hebben de direct herleidbare gegevens eruit gehaald en een volgnummertje teruggezet, maar wij kijken heus echt niet naar de bronlijst met volgnummer.

Hoe werkt het hier?

Daarom hebben wij alle identificerende data uit de trainingsdata verwijderd. We slaan dus géén persoonsgegevens en potentieel discriminerende informatie (zoals leeftijd en gender) op. Ook bezitten we geen bedrijfsnamen om te voorkomen dat iemand door de functie bij het bedrijf op te zoeken, toch herleidbaar zou zijn. We houden alleen die data over die noodzakelijk zijn om onze op A.I.-gebaseerde matchingtechnologie zo goed mogelijk te kunnen trainen.
Kennelijk is het AI systeem gericht op het extraheren van vaardigheden uit profielen, en ik zie wel hoe je persoonsgegevens daar niet bij nodig hebt. Dan zoek je naar beschrijvingen, labels, professionele lidmaatschappen en ga zo maar door. Het zoekproces is dan een stuk gerichter, omdat je dan veel meer vaardigheden (skills) hebt om mee te filteren.

Alleen: hoe krijg je vervolgens de profielen of contactgegevens van die personen te pakken? Dat gaat zo:

Vergelijkbaar met de bekende zoekmachines, maar dan gericht op openbare zakelijke profielen. … Hiervoor hebben we een gerichte search engine ontwikkeld, met zo’n 7 miljoen actueel openbaar gedeelde profielen in Nederland. Uniek is dat we daarbij matchen op de waarschijnlijk aanwezige en benodigde skills. … We slaan overigens geen contactgegevens op, zelfs niet indien deze openbaar toegankelijk zijn gemaakt op het profiel. Je kunt dus alleen contact opnemen via het platform waarop het profiel oorspronkelijk openbaar is gedeeld.
Dit klinkt als een zoekmachine gebaseerd op netwerksites zoals Linkedin, waar je op basis van skills in zoekt in plaats van trefwoorden. Vervolgens word je met een link naar de bronsite gebracht, waar je dan zelf contact opneemt met de persoon.

De AVG aspecten zitten daarmee enerzijds in het scrapen van die data om daar een AI model mee te trainen, en anderzijds in het doorzoekbaar maken van de data met een skills-zoekmachine.

Dat scrapen (even los van de Linkedin-voorwaarden) is AVG-technisch een verwerking, die je alleen kunt rechtbreien op grond van gerechtvaardigd belang. Ja, direct marketing staat in overweging 47 maar de vraag is of het proportioneel is en opweegt tegen de privacybelangen van de betrokkenen.

Ik zie ergens wel hoe “tot trainingsdata omwerken en daar een AI model van maken” hier in past. Zo’n algemeen zoals hier model raakt jouw privacy niet, en ‘doet’ verder niet direct iets met jouw persoonsgegevens. Zo’n label met een skill is op zich als persoonsgegeven te zien áls het aan een persoon zit, maar het label wordt hier niet op basis van persoonskenmerken gegeven.

Lastiger is het AVG verhaal voor de zoekmachine. Die verwerkt gewoon persoonsgegevens: je krijgt een profiel op basis van opgegeven skills, dat profiel is ook verbonden met zelf afgeleide skills én de link naar de bron (zoals het Linkedinprofiel) staat er bij. Dan voorzie je mensen dus van labels (“is harde werker”, “kennis van ISO42001”) en dát is gewoon waar de AVG voor bedoeld is.

Valt die zoekmachine dan onder een gerechtvaardigd belang? Dat zie ik niet meteen. Het hele idee van deze zoekmachine is mensen vinden op basis van skills, om ze vervolgens te benaderen voor werving en selectie. Vanuit de Telecomwet weten we dat zulke communicatie toestemming vereist, maar iedereen weet ook dat die zelden gezocht wordt. Zo’n zoekmachine zal dat dus aanjagen, en dat maakt de belangenafweging neigen naar “niet proportioneel”.

Daar staat natuurlijk tegenover dat op platforms zoals Linkedin je zelf kiest of je open staat voor communicatie van onbekenden (en/of je 06-nummer onder je naam opneemt), en dat men uiteindelijk via de Linkedin-faciliteiten contact opneemt. Dat kan leiden tot overlast, maar omdat de dienst hier achter een betaalmuur zit en vrij nieuw is, is dat een tikje speculatief.

Arnoud

 

Kan Spanje met gerechtelijk bevel zo Telegram uit de lucht halen?

manfredrichter / Pixabay

Spaanse telecombedrijven zijn bezig de chatapp Telegram uit de lucht te halen. Dat meldde RTL Nieuws afgelopen zaterdag. Twee dagen later trok men het bevel in, maar bij velen zat de schrik er goed in: kan dat dan zomaar als een rechter dat wil?

De blokkade is het gevolg van een serie claims van Spaanse rechthebbenden over content die wordt gedeeld op het chatplatform:

Judge Santiago Pedraz agreed to temporarily ban the platform after four of the country’s main media groups – Mediaset, Atresmedia, Movistar and Egeda – complained that the app was disseminating content generated by them and protected by copyright without authorisation from the creators.
Wie nu denkt: dan doen ze toch een notice&action en dan moet Telegram het weghalen (DSA), zo simpel is het niet. Een “een aanbieder van een onlinedienst voor het delen van content” is niét beschermd als provider, maar wordt zelf gezien als de publicist van gedeelde content (artikel 17 Auteursrechtrichtlijn). Die moet dus toestemming kopen of effectieve blokkades nemen.

Ik zie de discussie wel hoe Telegram onder deze definitie valt:

“aanbieder van een onlinedienst voor het delen van content”: een aanbieder van een dienst van de informatiemaatschappij die als belangrijkste of een van de belangrijkste doelstellingen heeft een grote hoeveelheid door de gebruikers van de dienst geüploade auteursrechtelijk beschermde werken of andere beschermde materialen op te slaan en toegankelijk te maken voor het publiek, waarbij hij deze werken en materialen ordent en promoot met een winstoogmerk.
Dus ik zie wel hoe de rechthebbenden dit proberen. Ook kunnen ze ‘gewoon’ de insteek nemen dat Telegram te weinig doet om notice&action verzoeken op te volgen. In beide routes kán de ultieme consequentie zijn dat internetproviders de dienst moeten blokkeren. Inderdaad, net zoals The Pirate Bay bij ons.

Bovendien, en dat was hier de kern: Telegram weigerde überhaupt input te geven in de rechtszaak. Wie niet meewerkt, moet de gevolgen daarvan dragen. In Nederland staat zoiets bijvoorbeeld in artikel 21 Rechtsvordering:

Partijen zijn verplicht de voor de beslissing van belang zijnde feiten volledig en naar waarheid aan te voeren. Wordt deze verplichting niet nageleefd, dan kan de rechter daaruit de gevolgtrekking maken die hij geraden acht.
Als je dus in een civiele zaak (strafrecht is even wat anders) geen uitleg geeft over je handelen, mag de rechter zelf bedenken wat daar achter zit. Is dat onjuist, dan is dat pech voor jou: had je het maar moeten toelichten. Maar de rechter mag meer, ook acties nemen is mogelijk – denk aan het toewijzen van een eis tot ontruiming of teruggave van spullen. Een tijdelijke blokkade van een dienst is dus in principe mogelijk.

Natuurlijk moet de rechter wel redelijk zijn en een proportionele maatregel kiezen. En dat was waar dit misging: de héle applicatie voor álle Spanjaarden blokkeren omdat een relatief klein deel van de gedeelde content inbreukmakend is, dat is een disproportionele reactie. Ook als je boos bent omdat Telegram je hof minacht (zouden de Yanks zeggen).

Arnoud