De Franse toezichthouder legt Google een boete van 271 miljoen dollar op wegens auteursrechtschending op generatieve AI, las ik bij CIO Magazine. Niet precies: het is geen schadevergoeding of boete voor het overtreden van de Auteurswet, maar wegens een schending van een eerdere schikking rondom toen nog Bard.
Zoals het artikel nader uitlegt:
De Autorité de la concurrence zei woensdag dat de zoekgigant niet heeft voldaan aan een schikking uit juni 2022 over het gebruik van nieuwsverhalen in zijn zoekresultaten, Nieuws- en Discover-pagina’s. Google vermeed op dat moment een boete door onder meer te beloven te goeder trouw te gaan onderhandelen over compensatie met nieuwsaanbieders voor hun inhoud.Deze schikking betrof een breder onderzoek naar vermeende auteursrechtinbreuk door Google met hun News-dienst. De discussie was toen of het overnemen van snippets en kleine afbeeldingen telt als inbreuk, citaatrecht of iets anders.
Over zo’n dispuut kun je schikken, en dan kun je allerlei afspraken maken. En als je daarbij niet uitkijkt dan komen die afspraken terug in een geheel andere context:
With regard to “Bard”, the artificial intelligence service launched by Google in July 2023, the Autorité found in particular that Bard had used content from press agencies and publishers to train its foundation model, without notifying either them or the Autorité. Google subsequently linked the use by its artificial intelligence service of the content concerned to the display of protected content, by failing to propose a technical solution for press agencies and publishers to opt out of the use of their content by Bard without affecting the display of content protected by related rights on other Google services, thus obstructing the ability of press agencies and publishers to negotiate remuneration.Voor mij is met name dat “technical solution” heel relevant: Google zal nu een opt-out moeten gaan ontwikkelen voor Franse nieuwsdiensten. Dat kan zo simpel zijn als duidelijk maken hoe men hun aparte AI-scraper bot kan weren met een robots.txt-bestand (want het zou oneerlijk zijn om als je daarmee ook de gewone Googlebot zou weren).
Interessanter is als men een nieuw protocol ontwikkelt (ai.txt?) waarmee je als uitgever kan aangeven dat data mining voor AI-training niet toegestaan is. Dat zou dan bredere consequenties hebben, omdat onder de Europese auteursrechtregels tekst- en datamining (TDM) is toegestaan op beschermd werk tenzij dit machinaal leesbaar is voorbehouden. Tot nu toe is er geen enkele standaard op dit gebied, en machineleesbaarheid bestaat niet zonder standaard.
Arnoud
AI crawlers kunnen al geblokkeerd worden via robots.txt, zie bijv. https://www.cyberciti.biz/web-developer/block-openai-bard-bing-ai-crawler-bots-using-robots-txt-file/
Dat werkt alleen bij die met naam genoemde bots. Jij kunt niet mijn Engelfrietbot tegenhouden totdat ik de user-agent daarvan onthul. Dat is de makke van robots.txt hergebruiken voor dit oneigenlijke doel.