Koninklijke Bibliotheek beperkt toegang tot collecties voor trainen commerciële AI

Geplaatst op 18 januari 202415 januari 2024 in Innovatie, Intellectuele rechten, 31 reacties

digitization, transformation, earth — Photo by geralt on Pixabay

De KB (nationale bibliotheek) wil niet dat commerciële bedrijven zonder toestemming digitale bronnen gebruiken voor het trainen van AI en heeft daarom de toegang tot collecties beperkt. Dat las ik bij Security.nl. In een verklaring verwijst men naar de “wijze waarop veel commerciële AI-modellen nu getraind worden – door zonder toestemming websites te crawlen”, die niet in het algemeen belang zou zijn.

De KB heeft een van de grootste Nederlandstalige collecties online staan, wat haar een dankbare bron maakt voor partijen die taalmodellen willen trainen. Hoe meer data hoe beter je uitvoerkwaliteit immers. Auteursrechthebbenden hebben hier moeite mee, want waarom moet daar niet voor worden betaald?

De Europese wetgever heeft een paar jaar terug een soort-van compromis in de wet opgenomen: gebruik van werk voor “text and data mining” (TDM) is wettelijk toegestaan (dus zonder vergoeding) tenzij een site een opt-out vermeldt. Die opt-out moet machineleesbaar zijn, omdat het anders geen doen is voor TDM dataverzamelaars.

Hoewel dit principieel en technisch onjuist is, is de trend om in robots.txt die opt-out te gaan coderen. Robots.txt is bedoeld om zoekmachinecrawlers buiten plekken te houden waar ze schade kunnen berokkenen of waar liever-niet content staat zoals stylesheets of grote bestanden die toch niet relevant zijn.

Het grote probleem is dat je met robots.txt kunt kiezen om álle robots ergens weg te houden, of alleen de genoemde robots. Je zou dus die van OpenAI kunnen blokkeren, maar dan heb je die van Bing nog niet. Blokkeer je Bing erbij, dan is er kennelijk geen bezwaar tegen mijn EngelfrietGPT-bot. En álles blokkeren betekent dat ook de zoekspider van Google er niet meer bij mag.

Er zijn ook uitgevers zoals The Guardian die in het commentaar van de robots.txt gebruik voor LLM verbieden. Dat is per definitie geen machineleesbare opt-out, want commentaar behoort een spider niet te lezen. Dat is dus zo’n geval “we moeten iets doen en dit is iets, dus laten we het doen”. Maar het komt mét Engelse advocaat die je heel welbespraakt gaat uitleggen waarom je toch echt onrechtmatig en zelfs strafbaar handelt door het te negeren.

De KB volgt desondanks deze trend door in de robots.txt van digitale collecties DBNL en Delpher de OpenAI bots (GPTBot en ChatGPT-User) toegang te ontzeggen. Dit is dus het probleem: de bot van Bing is niet uitgesloten, noch die van bijvoorbeeld Common Crawl om het over EngelfrietGPT maar niet te hebben.

En ja, in de gebruiksvoorwaarden staat ook een expliciet voorbehoud:

Voor commerciële partijen is het verboden om kopieën van auteursrechtelijk beschermde werken op onze website te maken ten behoeve van tekst- en datamining (TDM) waaronder training van AI-modellen. Dit verbod vormt een voorbehoud als bedoeld in artikel 15o Auteurswet en artikel 4(3) CDSM-richtlijn.

Dit is dus alleen niet rechtsgeldig als verbod, omdat het niet machineleesbaar is.

Natuurlijk, in de praktijk zal het vooral gaan om hoe strak men de toegang afschermt voor commerciële bots. Maar ik kan me dood ergeren aan dit soort maatregelen die gewoon principieel niet kloppen.

Arnoud

31 reacties

Michel schreef:

18 januari 2024 om 08:24

Aan de robots.txt te zien doet The Guardian allebei, ze verbieden ook individuele LLM bots zoals GPTBot. Ik heb het idee dat dit onder het motto “baat het niet, dan schaad het niet” valt.

Beantwoorden

Nuttige reactie, +1! (1)
1. Arnoud Engelfriet schreef:
  
  18 januari 2024 om 08:40
  
  Ze verbieden die specifieke bots, maar EngelfrietGPT mag er gewoon bij. Of mis ik iets?
  
  Beantwoorden
  
  Nuttige reactie, +1!
  1. Michel schreef:
    
    18 januari 2024 om 08:59
    
    Klopt, dus ze expliciet verbieden de LLM’s waarvan ze weten dat ze bestaan. En hopen dat ze met die comment LLM’s waarvan ze (nog) niet weten dat ze bestaan kunnen voorkomen. Ik denk niet dat ze de illusie hebben dat het veel gaat doen, maar als het 1 LLM meer tegen houd, waarom niet? Het heeft geen of bijna geen negatief effect om het erin te zetten, maar kan wel een positief effect hebben.
    
    Beantwoorden
    
    Nuttige reactie, +1! (1)
Thorvald schreef:

18 januari 2024 om 08:40

Ik denk dat AI modellen die leren en patronen en concepten overnemen van je website fundamenteel anders is dan een zoekmachine.

Net als de varianten humans.txt en security.txt wordt het dus misschien tijd voor een nieuwe standaard: ai.txt. Maar ik zie weinig motivatie voor AI bedrijven om daar aan bij te dragen en te promoten: Ze mogen nu vrijwel alles, een ai.txt die zegt: “gebruik content niet voor trainen AI modellen” kan alleen maar een obstakel beteken. Een beetje waarom RSS nog steeds op z’n gat ligt, de grote machtige spelers op het internet hebben daar weinig baat bij.

Het trainen van AI modellen is dan ook anders als een crawl-bot gebruiken om meer recente informatie te zoeken op een website. Die crawl-bot kun je prima blokkeren met robots.txt, maar dat is dan weer helemaal niet relevant voor trainen van AI modellen. Waarom zou een crawl-botje geen beter antwoord mogen geven als ik een vraag stel over een obscuur Nederlands werk, door, net als een mens, even het internet te checken?

(Je kan overigens wel alleen Googlebot accepteren en voor de andere agents “disallow” doen).

DNLB en KB zitten al lang in de training data van de meeste LLMs, en deze werken worden niet vaak genoeg ge-update om nu achteraf effectief te gaan verbieden. Ik vraag me af of dat uberhaupt wel kan, of dat daar een juridisch handwerk voor is, zeker als het trainen gebeurd in een land waar dat gewoon legaal is (zoals Singapore). Mag je dat wel verbieden, zeker als die werken al zijn opgenomen in publieke datasets? Crawlers mag wel, maar nogmaals, dat heeft helemaal niets met trainen te maken. Door te zeggen “niet trainen van AI” zeg je effectief “verboden patronen en stijlvormen over te nemen”. Zolang die AI niet letterlijk de teksten kopieert, wat is nu auteursrechtelijk het probleem?

En wat mag de motivatie dan wel zijn? Commerciele partijen mogen niet hun AI’s verbeteren door te leren van Nederlands cultuur en erfgoed? Argumenteer dat maar zonder “crawlen” en “zoekbots” te gebruiken. Wie wint er nu iets als mijn AI bot niets weet over Multatuli? Effectief zeg je dus tegen de leergierige student: “Ik heb problemen met het bereiken van de relevante websites, en niet genoeg informatie over Multatuli. Ga maar naar de DNLB zelf voor meer of vraag je leraar.”.

Beantwoorden

Nuttige reactie, +1! (1)
1. Thorvald schreef:
  
  18 januari 2024 om 09:12
  
  De KB constateert dat commerciële partijen die op grote schaal digitale bronnen van websites crawlen voor het trainen van modellen, met toepassingen zoals ChatGPT, niet voldoen aan de AI-principes die de KB in 2020 heeft opgesteld.
  
  Die AI-principes zijn voor de KB zelf, en richtlijnen voor haar eigen gebruik, inzet, en ontwikkeling van AI. Nu worden ze ineens toegepast op partijen die niets met KB te maken hebben: “Voldoe aan onze AI-principes of anders gaan we je verbieden en technisch lastig vallen”.
  
  Wil je betere bronvermelding van AI? De GPT chatbot geeft nota bene bronnen voor alles! En dan ga je dat blokkeren.
  
  Dat “verbieden van trainen van AI, omdat dan onze sites worden gecrawled” is zelf tegen de AI-principes. Eerste principe:
  
  De bibliotheek zet AI primair in voor het toegankelijk maken van informatie voor het publiek en voor het bevorderen van (digitale) geletterdheid van alle burgers.
  
  Met behulp van AI kan de leesvaardigheid van mensen verbeterd worden met een op de persoon afgestemd leren-lezen-programma.
  
  Een andere toepassing is AI die het mogelijk maakt om in gesproken, natuurlijke taal vragen te stellen aan een AI-systeem dat alle boeken, kranten en tijdschriften gelezen heeft. Hiermee wordt informatie laagdrempelig en voor iedereen bereikbaar.
  
  En dan ga je partijen verbieden om zo’n AI beschikbaar te stellen, zonder zelf maar een alternatief te bieden.
  
  Zeer teleurgesteld. Ik vindt het uitsluiten van alleen commerciele partijen ook een vorm van bias en non-inclusief. De state-of-the-art is immers commercieel, en heel veel academisch onderzoek leunt op de kracht van deze grote dure taalmodellen. Door de commercie tegen te staan, sta je dus academisch onderzoek tegen.
  
  Google zijn we al aan gewend, maar denk je dat die websites crawlen alleen voor indexeren van keywords? Die zijn natuurlijk net zo hard AIs aan het trainen, maar maken deze niet zo breed (en gratis) beschikbaar als OpenAI.
  
  Beantwoorden
  
  Nuttige reactie, +1! (2)
  1. Maaike schreef:
    
    18 januari 2024 om 09:36
    
    De GPT chatbot geeft nota bene bronnen voor alles!
    
    Voor zover ik weet worden die bronnen ook gewoon door het model uitgepoept. Met een beetje geluk bestaat de pagina ook echt, maar dat hoeft zeker niet het geval te zijn
    
    Beantwoorden
    
    Nuttige reactie, +1!
    1. Thorvald schreef:
      
      18 januari 2024 om 09:46
      
      De GPT crawlbot geeft alle bezochte pagina’s waar het informatie heeft verzameld keurig weer en linkt ze. De crawlbot trekt geen hele websites leeg, maar bezoekt specifieke en hoogwaardige bronnen. Dus… klagen over karige bronvermelding en dan de crawlbot die altijd bronnen vermeld gaan blokkeren.
      
      Bronnen die het geleerd heeft van train data zijn inderdaad soms niet bestaand of verkeerd. Maar dat mag toch geen reden zijn om dan maar dat trainen te verbieden? Het is een onopgelost AI-hard probleem om altijd correct te zijn en geen fouten te maken. Dus wil je alleen AI toestaan die nooit fouten maakt, dan moet je aantal jaar wachten.
      
      Beetje als Google blokkeren omdat het soms spam-pagina’s linkt.
      
      Beantwoorden
      
      Nuttige reactie, +1!
  2. Richard schreef:
    
    18 januari 2024 om 09:48
    
    Je haalt twee dingen door elkaar.
    
    Wanneer ChatGPT een bron noemt heeft daar op dat moment – dus tijdens het gebruik van het model door de eindgebruiker – voor op het web gezocht. Het gaat hier echter om iets anders: om het ophalen van data voor het trainen van het taalmodel – iets wat gebeurt lang voordat een gebruiker met het model werkt. Data die gebruikt wordt voor het trainen van het taalmodel is nadien ook niet meer herleidbaar naar de oorspronkelijke bron. Vergelijk dit met hoe een mens taal leert: je gebruikt woorden en termen en uitdrukkingen waarvan je niet meer weet waar je die ooit geleerd hebt, en je beschikt over “algemene ontwikkeling”. Ook daarvan weet je de bron niet meer. Dat iets iets anders als wanneer je iets op Wikipedia opzoekt en kan zeggen “dat heb ik van die en die pagina op Wikipedia”.
    
    Beantwoorden
    
    Nuttige reactie, +1! (1)
    1. Thorvald schreef:
      
      18 januari 2024 om 10:10
      
      Nee, de KB haalt twee dingen door elkaar, of snapt het niet helemaal.
      
      om het ophalen van data voor het trainen van het taalmodel – iets wat gebeurt lang voordat een gebruiker met het model werkt.
      
      Die data is reeds opgehaald en zit ruimschoots in publiek toegankelijke datasets zoals mc4 en Common Crawl. OpenAI gaat niet zelf op grote schaal DBNL zitten crawlen voor haar train data, in ieder geval niet via de GPT-crawlbot.
      
      Data die gebruikt wordt voor het trainen van het taalmodel is nadien ook niet meer herleidbaar naar de oorspronkelijke bron.
      
      Details wel, en zeker bronnen of concepten betreft in boeken en papers. Als het echt niet meer herleidbaar is, dan is het “algemeen bekend” en behoeft het geen vermelding. Vaak is output ook een nieuwe combinatie gebaseerd op meerde bronnen: transformative works.
      
      Bronvermelding is meer relevant voor exacte quotes of paraphrasen.
      
      Laat de KB maar aantonen dat OpenAI daadwerkelijk grootschalig haar website crawled voor het trainen van AI modellen. Of voorbeelden geven waar het teksten geeft van de DBNL, maar de bron of auteur ineens vergeten is.
      
      Beantwoorden
      
      Nuttige reactie, +1!
      1. Thorvald schreef:
        
        18 januari 2024 om 10:49
        
        De Europese wetgever heeft een paar jaar terug een soort-van compromis in de wet opgenomen: gebruik van werk voor “text and data mining” (TDM) is wettelijk toegestaan (dus zonder vergoeding) tenzij een site een opt-out vermeldt.
        
        Ook wel frappant in deze:
        
        De MC4 dataset is legaal verzameld tijdens wetenschappelijk onderzoek. https://arxiv.org/abs/2010.11934v3
        
        Maar dit wetenschappelijk onderzoek is door een commercieele partij: Google Research.
        
        Je mag de MC4 dataset hergebruiken voor wetenschappelijk en commercieel werk.
        
        Vrijwel alle (commerciele/academische) taalmodellen zijn getrained op MC4/mT5. https://paperswithcode.com/dataset/mc4
        
        MC4 bevat een zeer grote hoeveelheid aan DBNL pagina’s. Die hoef je dus niet telkens zelf te crawlen.
        
        DBNL stelt academisch onderzoek voor te staan, maar verbied commerciele partijen om data van haar websites te gebruiken voor het trainen van AI modellen.
        
        DBNL staat Googlebot toe, maar GPT crawlbot niet.
        
        KB wil inspraak en een vinger in de pap of dat commerciele partijen AI’s mogen trainen op data die van haar website gecrawled is.
        
        Maar ik heb toch niets meer met KB te schaften? Hoe kunnen ze nu zeggenschap hebben/eisen over de licentie van een publiek toegankelijke, legaal-verzamelde, (half-wetenschappelijke) dataset gemaakt door een Amerikaans bedrijf?
        
        Beantwoorden
        
        Nuttige reactie, +1!
        
        Arnoud Engelfriet schreef:
        
        18 januari 2024 om 10:59
        
        Dat doen ze ook niet. Ik krijg de indruk dat deze stellingname gekozen is omdat men heel vaak botte crawlers krijgt die alles downloaden zonder de traditionele safeguards over overbelasting en dergelijke. Dus een reactie op overlast.
        
        Beantwoorden
        
        Nuttige reactie, +1!
        
        Thorvald schreef:
        
        18 januari 2024 om 11:42
        
        De crawler die men blokkeert zoekt alleen op specifieke pagina’s als dit relevant is voor het beantwoorden van een vraag. Zal dit werkelijk overlast betekenen? Of moet je juist blij zijn met die aanvragen van AI, sinds “Hiermee wordt informatie laagdrempelig en voor iedereen bereikbaar”?
        
        Ik denk dat de stellingname het gevolg is van een vergadering waar het populaire ChatGPT een spraakpuntje was waar wat mee gedaan moest worden. En “Niet alleen omdat we zélf transparant willen omgaan met AI, maar ook om uit te dragen hoe ánderen op een verantwoorde manier kunnen omgaan met de bronnen die wij via onze websites toegankelijk maken.”.
        
        Blijkbaar vinden ze ChatGPT een onverantwoorde vorm van AI die niet schikt met hun trotse AI-principes aangaande de ontwikkeling van AI (niets van waarde nog ontwikkeld, dus dan maar toepassen op partijen die het wel voor elkaar krijgen).
        
        Wat onverantwoord is, is om de antwoorden van ChatGPT minder informatief te maken, en te laten leunen op minder kwaliteit bronnen. Als werkelijk overlast van de crawlbot die een pagina bezoekt om een samenvatting te geven, dan is dat aan te tonen door de logs of verzamelcijfers te noemen: dat zou transparant zijn.
        
        Beantwoorden
        
        Nuttige reactie, +1!
        
        Arnoud Engelfriet schreef:
        
        18 januari 2024 om 11:45
        
        Dat eerste klopt niet. Crawling ten behoeve van trainen van een LLM komt neer op het bulk downloaden van alles dat je kunt vinden en daar offline analyses op gaan doen. Dus ik geloof best dat de dataverkeer-rekening van de KB een paar keer over de kop is gegaan sinds alles en iedereen met LLMs aan het experimenteren is gegaan.
        
        Je kunt inderdaad een LLM bronnen laten noemen (de echte dus, niet “verzin een mooi klinkende bronvermelding”). Maar dat is een aparte stap die deel is van het genereren van uitvoer, en die helemaal niets te maken heeft met het crawlen van die bronnen. Diensten als Bing die dit doen, hebben een aparte database met bronnen waaruit ze relevante dingen zoeken en die als mede-input geven bij het genereren van de uitvoer. Maar die worden niet live nog even opgehaald, die staan al in de cache bij Bing.
        
        Beantwoorden
        
        Nuttige reactie, +1!
        
        Thorvald schreef:
        
        18 januari 2024 om 12:00
        
        Crawling ten behoeve van trainen van een LLM komt neer op het bulk downloaden van alles dat je kunt vinden en daar offline analyses op gaan doen.
        
        Crawling ten behoeve van trainen van LLM is heus niet meer intensief dan crawlen ten behoeve van zoekmachine indexeren. Googlebot komt elke dag terug. OpenAI heeft of 1 keer die website leeggetrokken, maar zeer waarschijnlijk gewoon een reeds beschikbare dataset hergebruikt en nooit direct gecrawled.
        
        Die New York Times artikelen in haar train data kwamen ook uit de Common Crawl (waar veel van haar artikelen door andere websites zijn hergepubliceert), terwijl New York Times denkt dat haar website direct is leeggetrokken.
        
        Je kunt inderdaad een LLM bronnen laten noemen
        
        Als de chatbot een zoekopdracht uitvoert gaat dit via Bing Search. Alle geraadpleegde/gecrawlde websites worden dan automatisch geciteerd, hoef je niet om te vragen. Die worden wel live nog even opgehaald, en staan niet in de cache: websites die Bing toestaan (gecached) maar GPT-bot niet, zijn niet toegankelijk voor de chatbot.
        
        Ongecached en live:
        
        The blog post on Ius Mentis discusses the Royal Library’s decision to limit access to its collections for the training of commercial AI models. The comments vary in perspective, with some discussing the technical and legal aspects of using robots.txt for opting out of data crawling, the effectiveness and implications of such measures, and the broader impact on AI development and information accessibility. Others comment on the nature of AI learning and source citation, the legal framework of text and data mining, and the challenges of distinguishing between commercial and academic AI research. The discussion includes a mix of opinions on the library’s decision and its implications for AI development and information access.
        
        For detailed insights and a full range of views, you can visit the page directly here.
        
        Beantwoorden
        
        Nuttige reactie, +1!
        
        Arnoud Engelfriet schreef:
        
        18 januari 2024 om 12:03
        
        An sich niet, maar er zijn nu wel veel méér partijen die dagelijks de KB crawlen en downloaden want je eigen LLM ontwikkelen is hip en happening. Je eigen zoekmachine bouwen is zó 1996.
        
        Beantwoorden
        
        Nuttige reactie, +1!
        
        Ruud Harmsen schreef:
        
        24 januari 2024 om 08:49
        
        Via mijn veelbekekenpagina (bereikbaar met rudhar.com/v maar ook rechtstreeks met de f van frequently) merk ik vaak dat er crawlers zijn die alles opslurpen, maar die zich niet kenbaar maken zoals googlebot en collega’s wel doen. Die laatsten filter ik voor de statistiek (want geen echte, menselijke bezoekers), maar ik blokkeer ze niet.
        
        Als ik wel eens met het IP-nummer (bijna altijd IPv4, geen IPv6) opzoek wie dat dan doen, zijn het VPS- of containerachtige dingen bij Google, Amazon, of iets in Rusland of China e.d. Of dat AI-startups zijn of eerder studenten of hobbyisten die wat zitten uit te proberen, geen idee.
        
        Soms irritant omdat het een verkeerd beeld geeft van het echte bezoek.
        
        Beantwoorden
        
        Nuttige reactie, +1!
        
        Ruud Harmsen schreef:
        
        24 januari 2024 om 08:57
        
        Ook die vermoedelijke hobbyisten accessen meestal maar zo’n 3 à 5 pagina’s per seconde, wat mijn allerkleinste VPS die te krijgen is makkelijk aankan, ook al omdat het grotendeels bestandjes van enkele tientallen kilobytes zijn. Dus een resourcesprobleem is er niet.
        
        Beantwoorden
        
        Nuttige reactie, +1!
        
        MathFox schreef:
        
        18 januari 2024 om 11:10
        
        Veel van deze datasets worden verspreid als (Gigabytes) grote lijsten van URLs in plaats van (Terabytes) aan tekstbestanden. Dat betekent dat de gebruiker van zo’n dataset alsnog de teksten bij de bron moet downloaden.
        
        Beantwoorden
        
        Nuttige reactie, +1!
        
        Thorvald schreef:
        
        18 januari 2024 om 11:52
        
        De datasets MC4 en Common Crawl zijn in ieder geval compleet met tekst: https://huggingface.co/datasets/mc4
        
        Het punt is dat:
        
        Het blijft ons beleid om zo open mogelijk toegang te bieden tot informatie. Een belangrijk doel van de KB is wetenschappelijk onderzoek op basis van onze collecties zoveel mogelijk te stimuleren. We waarborgen dat dit hergebruik niet zal worden gehinderd door onze maatregelen tegen AI-bedrijven.
        
        En dat alle AI-bedrijven ook wetenschappelijk onderzoek doen. Het samenstellen van een dataset voor trainen taalmodellen is dan ook wetenschappelijk. Maar het wordt voornamelijk gedaan door AI-bedrijven. Dus als je als wetenschapper een dataset crawled van DBNL en permissie geeft voor commercieel en wetenschappelijk hergebruik, hoe kan KB dan nog iets doen aan commerciele partijen als OpenAI die direct op mT5 trainen (en niet zelf telkens grootschalig elke week DBNL leegtrekken).
        
        Het is niet meer mogelijk om commerciele partijen los te zien van wetenschappelijke partijen. Het klinkt natuurlijk leuk om te zeggen wetenschappelijk onderzoek te willen stimuleren en niet te hinderen, maar dat doe je niet door mij (via ChatGPT) de toegang tot DBNL te ontzeggen. Wie gebruikt AI nu werkelijk om winst te maken van bronnen op DBNL? Dat is toch puur voor het leren?
        
        Beantwoorden
        
        Nuttige reactie, +1!
Peter S schreef:

18 januari 2024 om 09:07

Dit is dus alleen niet rechtsgeldig als verbod, omdat het niet machineleesbaar is.

En ik maar denken dat die LLMs zo goed in staat zijn om teksten te analyseren …

Beantwoorden

Nuttige reactie, +1!
1. Arnoud Engelfriet schreef:
  
  18 januari 2024 om 09:53
  
  Dat zou je denken, maar die bronteksten zijn net wat te ambigu. Zie dit onderzoek:
  From the analysis of the publicly available documentation on the Stock Images providers’ websites, we found that most of them (9 out of 13) address data mining, even though Freepik, Adobe Stock, Getty and Canva employ terms like machine learning or more generally refer to uses for “artificial intelligence purposes”, sometimes without offering a proper definition. We observed that most of the providers that address TDM or uses for AI/ML purposes expressly prohibit such practices. Even though some of these documents make it clear that the selected governing law is one that would authorize TDM for research purposes as a copyright exception (e.g. Germany), these prohibitions are usually expressed in the documentation regardless of the intended purposes.
  
  Beantwoorden
  
  Nuttige reactie, +1!
Alain schreef:

18 januari 2024 om 10:56

Het is echt geen probleem om een machine leesbaar bestand op je website te zetten en in een apart document te beschrijven naar welk machine leesbaar bestand men op jouw site moet kijken.

Het is dan de verplichting voor de ai crawlers om deze te volgen.

Dat dat voor hen moeilijk zou zijn is mijns inziens hun probleem.

Beantwoorden

Nuttige reactie, +1!
1. Arnoud Engelfriet schreef:
  
  18 januari 2024 om 10:57
  
  Iets is pas machineleesbaar als er een standaard is die zegt wat het betekent. Een string ASCII karakters in een ai.txt bestand op je website is géén machineleesbaar bestand.
  
  Beantwoorden
  
  Nuttige reactie, +1!
  1. Alain schreef:
    
    18 januari 2024 om 11:31
    
    Vanaf er een beschrijving is, is het machine leesbaar.
    
    Er zijn zeer weinig machine leesbare formaten die in een ISO of EN standaard zijn beschreven. Zeer veel wijken zelfs af van ISO normen, bv. in datum-tijd notatie.
    
    Het is niet omdat iemand niet de moeite wil doen, dat de wetgeving niet gevolgd moet worden.
    
    Beantwoorden
    
    Nuttige reactie, +1!
    1. Arnoud Engelfriet schreef:
      
      18 januari 2024 om 11:38
      
      Met “machineleesbaar” bedoel ik dat een machine informatie kan halen uit het bestand. Ik geloof onmiddellijk dat men kan achterhalen dat de bytes ISO-8859-1 gecodeerde tekens zijn, en misschien zelfs dat een JSON of XML codering is gebruikt om ze vast te leggen. Maar de bedoeling van het wetsartikel is dat je machinaal kunt achterhalen of er een voorbehoud is. Vergelijk:
      
      User-Agent: *LLM* Disallow: * Allow: /open
      
      en
      Example.com content is made available under our terms and conditions of use. Any other uses are not permitted, incl. but not limited to: for large language models (LLMs), machine learning and/or artificial intelligence-related purposes; with any of the aforementioned technologies; and/or for any commercial purposes.
      
      Die tweede tekst is onder geen enkele definitie “machine-leesbaar”.
      
      Beantwoorden
      
      Nuttige reactie, +1! (1)
      1. Thorvald schreef:
        
        19 januari 2024 om 06:58
        
        Maar er is momenteel geen standaard specifiek voor aangeven opt-out datamining.
        
        tenzij een site een opt-out vermeldt. Die opt-out moet machineleesbaar zijn, omdat het anders geen doen is voor TDM dataverzamelaars.
        
        Dus hoe kun je nu praktisch gezien een machineleesbare opt-out vermelden? Op elke pagina in kleine letters naast de copyright/content licentie?
        
        En kun je dan nog wel CC-BY hanteren? Of is “je mag alles, maar AI’s trainen is verboden” niet compatibel?
        
        En als je een CC BY-NC-SA hanteert? Zit je dan niet al meteen goed, sinds je commercieel hergebruik (inclusief trainen commerciele AI modellen) verbied?
        
        Beantwoorden
        
        Nuttige reactie, +1!
        
        Arnoud Engelfriet schreef:
        
        19 januari 2024 om 08:39
        
        Er lijkt momenteel geen manier te zijn om een machineleesbare opt-out te vermelden. Dit is problematisch voor rechthebbenden die dat willen, maar iedere benadering die neerkomt op dat het niet echt machineleesbaar is (“neem gewoon een AI die Engelse juridische teksten analyseert”) is dan weer net zo problematisch voor TDM dataverzamelaars.
        
        Beantwoorden
        
        Nuttige reactie, +1!
Thorvald schreef:

21 januari 2024 om 03:38

Ik vind dit toch wel een schande. Dit waren mijn vragen:

Wie was Multatuli?

daarna

“Indonesische boeren gedwongen werden een deel van hun land te gebruiken voor de teelt van exportgewassen voor de Nederlandse markt.” Kun je hier iets meer over vertellen?

daarna

Is er, naast “Max Havelaar”, nog andere Nederlandse literatuur aangaande specifiek het Cultuurstelsel, of in het algemeen die tijdsperiode en context van het koloniale beleid?

en daarna

Kun je iets meer opzoeken op de Digitale Bibliotheek voor de Nederlandse Letteren over “Uit de suiker in de tabak”?

ChatGPT:

Ik ondervond een technische belemmering bij het openen van de pagina’s van de Digitale Bibliotheek voor de Nederlandse Letteren over “Uit de suiker in de tabak”. Deze beperking voorkomt dat ik direct toegang krijg tot de inhoud op hun website. Desondanks kan ik wat algemene informatie over het boek delen op basis van mijn bestaande kennis. […] Voor meer specifieke informatie over “Uit de suiker in de tabak”, zoals de plot, personages en thema’s, raad ik aan om de DBNL-website rechtstreeks te bezoeken of een fysiek of digitaal exemplaar van het boek te raadplegen.

Dit lijkt mij toch echt niet de bedoeling?

Beantwoorden

Nuttige reactie, +1! (3)
1. cg schreef:
  
  24 januari 2024 om 12:05
  
  O, hier valt zoveel over te zeggen…
  
  Ten eerste: Dat lijkt je niet wiens bedoeling? Waarschijnlijk niet de bedoeling van de student die een indrukwekkend geschrift wil presenteren aan zijn docent met weinig werk (en helaas ook weinig leeropbrengst). Wat is ‘de bedoeling’ van ChatGPT?
  
  Ten tweede: Dat chatGPT jouw eerste en derde vraag niet beantwoordt, is dat de schuld van de KB?
  
  Ten derde: Als jij in je vierde vraag specifiek vraagt naar info uit een bepaalde bron, waarvan je weet dat die niet toegankelijk is, dan kun je zo’n antwoord verwachten. Je speelt eigenlijk vals: Je wilt de informatie, en dan maakt het niet uit uit welke bron. Door een bron te specificeren, creeer je een conflict.
  
  Ten vierde: ChatGPT heeft gewoon gelijk: Vind een exemplaar van het boek. De auteur heeft moeite gedaan om een en ander zo goed mogelijk uit te leggen in dat boek, niet te summier en niet te uitgebreid, zodat hedendaagse Nederlandse lezers er iets aan hebben. De auteur heeft (wrsch, in ken het boek niet) zelfs een inhoudstabel en misschien een index voorzien om het de lezers nog gemakkelijker te maken.
  
  Beter uitgelegd en geanalyseerd dan in dat boek zul je het niet vinden, dus wat wil je dan van ChatGPT? Oftewel je wilt de situatie begrijpen, en dan lees je het boek, oftewel je wilt gemakkelijk een mooi stukje tekst gepresenteerd krijgen zodat je denkt dat je de situatie begrijpt (en dan verdien je geen antwoord).
  
  Beantwoorden
  
  Nuttige reactie, +1!
  1. Thorvald schreef:
    
    28 januari 2024 om 16:22
    
    Dat lijkt je niet wiens bedoeling?
    
    De bedoeling van de KB. Ze stellen (vergelijkende en theoretische) literatuurwetenschap te willen stimuleren en faciliteren en informatie laagdrempelig en open toegankelijk te maken. Dat is haar kerntaak. Hoeft ze niets extra voor te doen. Maar verzaakt ze door technische belemmeringen op te werpen.
    
    ChatGPT beantwoorde al mijn vragen, maar ik ga die hier niet copy-pasten.
    
    De DBNL is de meest autoritaire bron op het gebied van de Nederlandse literatuur uit de vorige eeuwen. De Wikipedia pagina over Paul Adriaan Daum (auteur van “uit de suiker in de tabak”) is niet mogelijk zonder het auteursprofiel op DBNL. DBNL is verder de enige site die kritiek en discussies over dit boek heeft verzameld en weergeeft. De bron maakt, in deze, zeker uit.
    
    Wat die bot doet, is niets anders als “‘uit de suiker in de tabak’ site:dbnl.org”, maar wordt vervolgens belemmerd om een samenvatting of overzicht te geven.
    
    Oftewel je wilt de situatie begrijpen, en dan lees je het boek, oftewel je wilt gemakkelijk een mooi stukje tekst gepresenteerd krijgen zodat je denkt dat je de situatie begrijpt (en dan verdien je geen antwoord).
    
    Dit is ouderwets en zelf-beperkend. Natuurlijk dien je uiteindelijk wel dat boek een keer te lezen, maar als je telkens gedwongen wordt om boeken te lezen alvorens je een ander boek in historische context kan plaatsen, dan schiet dat niet op. Gebruik de AI om je werk en studie dieper, sneller, en uitgebreider te doen. Misbruik AI niet om je verslag te schrijven.
    
    wil je dan van ChatGPT?
    
    Ik wil dat het een beknopte samenvatting geeft van het boek (liefst met nadruk op het Cultuurstelsel). Ik wil dat het het auteursprofiel van P.A. Daum bezoekt. Ik wil dat het linked naar pagina’s zoals https://www.dbnl.org/tekst/ind00419860101/ind00419860101_0003.php met een korte beschrijving van de inhoud (Daum contra de dubbele moraal maatschappijkritiek: Dit artikel behelst de tekst van een lezing, gehouden op 13 december 1985 in Leiden tijdens een bijeenkomst van de Werkgroep Indisch-Nederlandse Letterkunde.), zodat ik snel kan zien of het werk relevant is voor mijn onderzoek, en hoe het is gepositioneerd in de Nederlandse literatuurkritiek.
    
    Beantwoorden
    
    Nuttige reactie, +1!
    1. cg schreef:
      
      29 januari 2024 om 08:42
      
      Wetenschap is nu eenmaal werk. Je moet dingen van anderen nazoeken en dubbelchecken, en analyseren en begrijpen, alvorens je je eigen bijdrage kunt leveren aan de wetenschap.
      
      De informatie is beschikbaar. Wat jij eigenlijk wilt is dat die informatie zodanig gepresenteerd wordt dat jouw gekozen hulpmiddel om bronnen te zoeken en te voor-analyseren, ChatGPT (en we laten dan maar even in het midden of dat een goed middel is of niet), er iets mee kan.
      
      En daarbij heb je de pech dat de bronbeheerder niet zo van chatGPT houdt en daarom toegang door ChatGPT bemoeilijkt.
      
      Ik zie dat nog niet direct als het verzaken van hun kerntaak: Laagdrempelig wil natuurlijk niet zeggen ‘zonder drempel’. Er zijn natuurlijk allerlei (echte of vermeende) eigen belangen of maatschappelijke belangen om toch een bepaalde, zij het lage, drempel te hanteren.
      
      Beantwoorden
      
      Nuttige reactie, +1! (1)

31 reacties

Geef een reactie Reactie annuleren