Deze fotograaf kreeg een rekening omdat hij zijn foto uit de LAION dataset wilde hebben

Een Duitse stockfotograaf eiste bij de beheerders van de LAION dataset verwijdering van zijn foto’s, maar kreeg een factuur van $979 in plaats van excuses. Dat las ik bij VICE, en ik wou dat ik zulke clickbaittitels kon schrijven. De zaak is interessant genoeg, zeker nu de fotograaf een rechtszaak is begonnen.

Het Duitse LAION project onderhoudt een van de bekendste datasets met geannoteerde afbeeldingen, waarmee AI systemen getraind kunnen worden. De bekende afbeeldingsgeneratoren zoals Midjourney en Stable Diffusion gebruiken LAION. Een discussiepunt bij dit soort sets is of hier sprake is van auteursrechtinbreuk, wat onder meer tot deze class action rechtszaak leidde.

Over een praktische aanpak blogde ik vorig jaar: via de website “Have I been trained” kun je achterhalen of jouw foto gebruikt is om een AI te trainen. Of nou ja, of je in een dataset zit die zo’n AI gebruikt, wat juridisch niet precies hetzelfde is. Ik schreef toen:

De state of the art dataset tegenwoordig is LAION-5B,met 5,85 miljard afbeeldingen verreweg de grootste. Bijeengebracht voor researchdoeleinden en experimenteren met zulke enorme sets, aldus de website. “The images are under their copyright”, staat er dan ook. En dan de juridische truc, of nou ja truc, waarmee dat kan: elk item uit de dataset bevat simpelweg alleen de bron-URL van de afbeelding, waarmee de dataset zelf geen inbreuk is.
De bedoeling van die website was dat je AI-bedrijven ging aanschrijven. Fotograaf Robert Kneschke koos een fundamenteler route: hij schreef LAION aan. Want je kunt maar beter problemen bij de bron aanpakken, nietwaar? Als die je foto uit hun set halen, zal niemand deze meer gebruiken.

De reactie was verrassend voor zowel Kneschke als VICE:

“Our client only maintains a database that contains links to image files that are publicly available on the Internet. It cannot be ruled out that the database may also contain links to images that you are the author of,” the letter, written by the law firm Heidrich Rechtsanwälte on behalf of LAION and viewed by Motherboard, said. “However, since our client does not save any of the photographs you have complained about, you have no right to deletion. Our client simply does not have any pictures that could be deleted.”
En ja, dat klopt dus met wat we vorig jaar hadden gezien: de dataset bevat fysiek geen afbeeldingen, alleen links daarheen. Ja dat is een truc, en ja die truc is legaal: onder het Europese auteursrecht is linken naar legaal gepubliceerd materiaal geen inbreuk. Het doet er daarbij niet toe welke gebruiksvoorwaarden of licentie de publicist bij het materiaal vermeldt. Dat is het probleem van de partij die de link volgt en de foto downloadt – de datasetsamensteller die er een AI mee gaat trainen dus, niet stichting LAION.

Vervolgens pakte de fotograaf door met een takedown-eis. Daar kwam dus die reactie met factuur op, wat een zeer creatieve terugblafactie is:

The legal letter [van LAION, AE] contained an invoice for $979 in Euros, and demanded that Kneschke pay the amount within 14 days or the firm will take legal action. The amount was due for filing an unjustified copyright claim, the lawyers argued, saying that Kneschke must pay because their client had now incurred legal fees to deal with the matter.
In het Europees auteursrecht is het zo dat de verliezer in een rechtszaak de werkelijke advocaatkosten van de winnaar betaalt. Dus niet het liquidatietarief zoals in andere rechtsgebieden, maar echt de factuur van die advocaat. En ja, als je dus als rechthebbende een dure advocaat neemt dan gaat de inbreukmaker meer betalen. En ja dat is oneerlijk. Maar het werkt ook andersom: als een rechthebbende onterecht blaft, mag je als beweerdelijke inbreukmaker jouw advocaatkosten neerleggen bij de blafhebbende.

Dat laatste is dus wat de LAION advocaat doet. Men ontwaart een onterechte auteursrechtclaim, omdat er wordt gesteld dat de dataset inbreuk maakt maar daar zit alleen een link in en dat is auteursrechtelijk legaal. Het in discussie blijven kost tijd van de advocaat, tijd is geld, dus de blafhebbende fotograaf moet die kosten vergoeden. Formeel hoeft dat pas bij een rechtszaak (want het is een proceskosten-vergoeding) maar de rekening na een rechtszaak zal hoger zijn dan die 900 euro.

Natuurlijk zal LAION ooit die foto’s hebben gedownload, al is het maar om de hyperlink te controleren of er echt een afbeelding achter zit en welke resolutie deze heeft. Die download zou je kunnen zien als een inbreuk, want daar is dan dus wél een kopie gemaakt. Maar in Europa hebben we sinds een aantal jaar een auteursrechtelijke uitzondering voor “data mining”, bij ons artikel 15o Auteurswet:

Onverminderd het bepaalde in artikel 15n wordt een reproductie in het kader van tekst- en datamining niet als inbreuk op het auteursrecht op een werk van letterkunde, wetenschap of kunst beschouwd mits degene die de tekst- en datamining verricht rechtmatig toegang heeft tot het werk en het auteursrecht door de maker of zijn rechtverkrijgenden niet uitdrukkelijk op passende wijze is voorbehouden, zoals door middel van machinaal leesbare middelen bij een online ter beschikking gesteld werk.
Met name dat stuk over het voorbehoud is van belang. Menig fotograaf of andere auteursrechthebbende zal een licentietekst of gebruiksvoorwaarden bij zhaar werk publiceren, al is het maar een Creative Commons licentie met bijvoorbeeld een NietCommercieel variant. Je zou zeggen dat je het daarmee juridisch dichtgetimmerd hebt, maar voor gegevensmijnwerkers is het ondoenlijk om al die teksten te gaan lezen. Daarom staat er in de wet dat zo’n voorbehoud op “passende wijze”, met name dus machineleesbaar, moet zijn gedaan.

Kneschke heeft zover ik kan zien geen machine-leesbare licentieinformatie bij zijn afbeeldingen, maar ze staan wel legaal online. Daarmee is dus aan deze uitzondering voldaan, zodat een partij zoals LAION ze mag downloaden voor datamining. Oftewel: haal ze binnen, extraheer de relevante informatie (omvang, type, etc) en maak een record waarin je die informatie vastlegt plus de hyperlink, gooi daarna de afbeelding weg. Ik zie niet hoe dit auteursrechtinbreuk kan opleveren.

Arnoud

15 reacties

  1. Had de fotograaf wel gewoon de foto’s kunnen weghalen van die URL (en ze eventueel herplaatsen onder een nieuwe URL)?

    Is dat sowieso niet een zwak punt in die LAION database? Als het URLs zijn, weet je nooit of het image er nog wel is, en of het niet vervangen is door een andere image waarop de metadata/annotaties niet meer van toepassing zijn.

    1. Goed punt, eerlijk gezegd geen idee. Ik veronderstel dat er een hash of checksum bij zit van het te verwachten bestand, dat voelt een heel l0gische stap. Maar zelfs als je als fotograaf je bronwerk weghaalt, dan a) komt hij bij de volgende crawl er alsnog weer in en b) heeft iedereen met een AI je foto ondertussen al gedownload en die gaan ze echt niet weghalen omdat LAION versie n+1 de URL niet meer heeft.

      1. a) maar dan zet je daar machine-leesbare licentieinformatie in, dan komt hij er niet in b) dat is waar, daar had ik niet bij stilgestaan. Maar aan de andere kant: Ik neem aan dat er ook wel eens foto’s verwijderd worden uit de LAION database omdat de annotaties incorrect blijken te zijn en de foto’s dus slecht trainingsmateriaal opleveren. De klanten van LAION moeten dus eigenlijk wel alle wijzigingen, zowel aanvullingen als verwijderingen, verwerken. Dus eigenlijk denk ik wel dat ze bij de volgende trainingsronde de verwijderde foto’s ook echt niet gebruiken: die zijn immer twijfelachtig qua kwaliteit.

      2. Is het ook niet zo dat als de beschrijving eenmaal is gemaakt de afbeelding niet meer door de makers van de dataset gedownload hoeft te worden. Dat is immers alleen nodig om de annotaties te kunnen maken.

        Als die er zijn dan hoeven ze alleen maar, desnoods op aangeven van derden, de URL aan te passen en hebben ze de uitzondering niet eens meer nodig. Tevens heeft het achteraf toevoegen van een michinaal leeesbaar bezwaar dan geen enkel effect meer. Eenmaal in de set kom je er niet meer uit.

        1. Eenmaal in de set kom je er niet meer uit.

          Dat vraag ik me dus af. Er zullen best wel eens afbeeldingen uit de trainingsset verwijderd worden omdat blijkt dat ze echt slecht trainingsmateriaal zijn.

          De gebruiker die optimaal wil trainen (en dat willen ze natuurlijk allemaal) heeft dus eigenlijk geen keuze: Hij moet altijd meest recente trainingsset nemen (of de wijzigingen volgen en goed optimaliseren), anders zit hij willens en wetens met een sub-optimale trainingsset.

          Dus ja, je foto zit nog in de vorige trainingsset en komt daar inderdaad niet meer uit, maar die trainingsset verliest heel snel zijn relevantie en wordt daarom door niemand meer gebruikt.

  2. Het in discussie blijven kost tijd van de advocaat, tijd is geld, dus de blafhebbende fotograaf moet die kosten vergoeden. Formeel hoeft dat pas bij een rechtszaak (want het is een proceskosten-vergoeding) maar de rekening na een rechtszaak zal hoger zijn dan die 900 euro.

    Formeel geldt art. 1019h Rv inderdaad alleen pas bij een gerechtelijke procedure. Nu heeft de verweerder nog wel recht op “redelijke kosten ter verkrijging van voldoening buiten rechte” op grond van art. 6:96 BW (de verweerder heeft daar ook recht op). Voor de vaststelling of kosten redelijk zijn geldt een dubbele toets: zowel het maken van de kosten als de hoogte van de kosten moeten redelijk zijn. Ik denk dat daarop wel wat valt af te dingen.

    1. Vooralsnog staat niet vast dat het trainen van een AI model op die dataset niet onder fair use/uitzonderingen op auteursrechten valt. Dus welke inbreuk faciliteren ze?

      Daarnaast is het een database van legaal op het internet staande afbeeldingen, dus in tegenstelling tot torrents op TPB geen links naar illegale content. Als je zo’n set in licentie wil nemen is een database noodzakelijk om te weten wie je moet benaderen. Er is dus sowieso een substantieel legaal gebruik mogelijk.

      Ik zie dan ook geen enkele manier waarop die autspraken tegen TPB op deze casus zou moeten toepassen.

      1. Bedankt, ik snap het punt van de legale bron. Op dat vlak zijn de twee niet te vergelijken inderdaad.

        Wat betreft de inbreuk leek het mij logisch dat een afbeeldingen van een annotatie voorzien, het vervaardigen van een afgeleid werk is en dat dit niet mag zonder toestemming van de rechthebbende. Ik dacht in de lijn van dat iemand bv een boek met mooiste persfoto’s uit een jaar samenstelt en die voorziet van een korte omschrijving. Maar dat is dus niet zo begrijp ik?

        Mag je dat linken naar legale bron zover doortrekken dat als dat boek met persfoto’s een website zou zijn, die afbeeldingen embed vanuit de bron, dus is toegestaan?

        Behalve de schaal lijkt me dat het meest vergelijkbare concept.

        Even los van wat er nu in de wet is vastgelegd, voelt het voor mij nogal onrechtvaardig dat een creatief werk, zonder instemming van de rechthebbende een heel andere toepassing krijgt, partijen daar aan kunnen verdienen en daarmee voor een heel ander publiek met een heel ander doel interessant wordt, dan waar het oorspronkelijk voor was bedoeld.

        1. Als ze de foto hadden opgenomen bij de beschrijving, zoals jij beschrijft, dan was het boek een afgeleid werk. Maar dat is inderdaad niet wat LAION doet.

          Ze slaan de URL van de foto op bij de beschrijving, niet de foto zelf. In de ‘echte’ wereld: Locatie: ‘Door hoofdingang rijksmuseum inlopen en recht doorlopen tot u niet verder kunt’ Omschrijving: ‘Schilderij Rembrandt van Rijn Nachtwacht Donker Voorgrond(kapitein Frans Banninck Cocq en luitenant Willem van Ruytenburgh) achtergrond(schutterscompagnie)

          Embedden is legaal als je bron legaal is en je geen technische maatregelen omzeilt. Dus als die persfoto’s niet tegen embedden beschermd zijn kan je zo’n website maken.

          Wat dat laatste punt betreft en ik het niet met je eens. Als ik een schilderij kop en dat als toiletpapier wil gebruiken waarom zou iemand die dat geschilderd heeft daar iets over te zeggen moeten hebben? Ik heb dat exemplaar gekocht en in eigendom.

  3. Ik vraag mij opeens af in hoeverre een URL eigenlijk ook auteursrechtelijk beschermd is. Een beetje zoals de titel en kaft van een boek. Want de naam van een domein in combinatie van een bestandsnaam vraagt wel een minimale creativiteit.

    Daarnaast vraag ik mij af hoe je machine-leesbare licentie-informatie kunt toepassen. Welke standaard geldt hierbij? is dit een copyright.txt bestandje op mijn site? Is extra EXIF-data in mijn afbeelding ook genoeg? Of zelfs een © teken in de afbeelding?

    Maar wat als ik een robots.txt op mijn site heb die alleen Google als webcrawler toelaat en LAION deze gewoon negeert en toch mijn site helemaal aflebbert?

    Maar moeten wij er vanuit gaan dat robots ook op het Internet komen en te dom zijn om gewone teksten te lezen? Zeker als het om data mining gaat waarbij men gewoon de robots.txt negeert omdat die alleen maar in de weg zit.

  4. Is er naast een uitzondering voor datamining dan ook iets voor caching? Alles wat ik bij het browsen op mijn scherm krijg, wordt toch gedownload en gecached door mijn browser, én waarschijnlijk ook nog eens door mijn access provider? Het kan toch niet zo zijn dat dat inbreuk is?

    Vergelijk het inzien en lezen van enkele pagina’s van een boek in een boekwinkel (bestaan die nog?) of bibliotheek. Dat is ook een soort van download, namelijk van papier naar mijn hersens. Maar geen inbreuk toch?

    1. Dat is artikel 13a:

      Onder de verveelvoudiging van een werk van letterkunde, wetenschap of kunst wordt niet verstaan de tijdelijke reproductie die van voorbijgaande of incidentele aard is, en die een integraal en essentieel onderdeel vormt van een technisch procédé dat wordt toegepast met als enig doel a)de doorgifte in een netwerk tussen derden door een tussenpersoon of b)een rechtmatig gebruik van een werk mogelijk te maken, en die geen zelfstandige economische waarde bezit.

      Verder kun jij als privépersoon je beroepen op de thuiskopieregeling (art. 16c Auteurswet). Jij mag immers een kopie voor eigen gebruik maken op opslagmedia die daarvoor bestemd zijn, omdat je de thuiskopievergoeding hebt afgedragen toen je de laptop of telefoon kocht.

      Het lezen van een boek is geen inbreukmakende handeling. Het elektronisch laden, kopiëren of anderszins verveelvoudigen is dat wel.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.