Mag de Koninklijke Bibliotheek je website indexeren?

kb-archiveren-websiteKennelijk is de KB weer met een rondje spideren bezig, want van diverse lezers kreeg ik de vraag of ze dat wel mogen, zomaar je website indexeren en in hun archief opnemen. “In het kader van het initiatief van de Koninklijke Bibliotheek (KB) om een selectie van Nederlandse websites te bewaren voor toekomstig onderzoek, willen wij ook uw website archiveren” zo opent de e-mail. Leuk en aardig, maar men werkt met opt-out: reageer je niet op deze mail, dan wordt je website in het openbare archief opgenomen. Eh, wacht, wat?

Het auteursrecht vormt een obstakel als men grote aantallen websites wil archiveren, zo constateert men zelf al op de site. Er is geen wet die de KB toegang geeft tot digitale werken en onduidelijk is of er een auteursrechtelijke uitzondering is die voor haar opgaat.

Recenter dan deze tekst is artikel 16n Auteurswet, dat onder omstandigheden “voor het publiek toegankelijke bibliotheken, onderwijsinstellingen en musea of archieven die niet het behalen van een direct of indirect economisch of commercieel voordeel nastreven” (zoals de KB) toestaat om werken zonder toestemming te reproduceren. Alleen: dat recht is beperkt tot restauratie en veiligstellen van oude werken, en omvat geen publicatie in openbare archieven. Dus dat helpt niet echt.

Toestemming vragen is het veiligste, maar hier geldt de 80-procentregel: 80% van de mensen reageert niet op je vraag. Wat moet je dan?

Om te voorkomen dat het archiveren van websites blijft steken in langdurige administratieve handelingen heeft de KB voor een meer pragmatische benadering gekozen, de opt-out aanpak.

Oftewel: formeel mag het niet, maar we gaan er vanuit dat niemand het een probleem vindt dat de KB dit doet, dus bij deze. Een begrijpelijk standpunt; een perfecte handhaving van het auteursrecht gooit per direct het hele internet op slot.

Wat me dan weer wel opvalt, is dat de meeste klachten van die lezers gaan over het stukje dat daarop volgt:

Eventuele beperkende aanwijzingen in het zgn. robots.txt-bestand zullen we daarbij negeren.

Dit wordt als zeer onbeleefd ervaren. Robots.txt is er niet voor niets, en wie dat negeert is geen nette internetter.

Het argument van de KB lijkt te zijn dat robots.txt een ‘verzoek’ is en geen wet. Ik twijfel daar wel over: het zijn toch gewoon regels die de eigenaar van een website (server) stelt, net zoals “Geen sportschoenen” bij een disco of “Neem een mandje” bij de supermarkt? Waarom vinden we dát regels en robots.txt een verzoek? En waarom hebben we geen moeite met de auteursrechtschending maar wel met de beleefdheidsnormschending?

Arnoud

41 reacties

  1. “Daarbij wordt er een termijn gegeven waarbinnen men toestemming kan weigeren. Blijft weigering uit, dan wordt dit beschouwd als een impliciete of stilzwijgende toestemming.” Maar kun je daar van spreken als de mail bv helemaal niet aan komt. “Blijft weigering uit” is iets anders dan “ik heb nooit een verzoek tot weigering” gekregen? Als ik de mail niet krijg kan ik ook niet stilzwijgen…. Stuur alles naar no-reply@wijwillenallesspideren.nl en bingo?

  2. “Eventuele beperkende aanwijzingen in het zgn. robots.txt-bestand zullen we daarbij negeren.” Enig idee wat de user-agent en/of IP range van deze crawl gaat zijn? Dan gaan we eens even wat conformiteit afdwingen op een paar duizend sites dmv de webserver configuratie of iptables.

    1. Op http://www.fleiner.com/bots/ staan wat leuke tips om een spider trap te maken. Daarvoor hoef je vooraf helemaal geen ip adres of user-agent te weten. Je configureert een directory (die via robots.txt verboden is) waarin je elke willekeurige url accepteert. Je zet daarin een random hyperlink die uiteindelijk weer hetzelfde bestand laadt, alleen dan weer met een andere hyperlink. Eventueel gebruik je wat random inhoud (Project Gutenberg).

      Natuurlijk kun je dit ook combineren met fail2ban om het betreffende ip adres daadwerkelijk te blokkeren.

    2. De KB werkt niet met opt-out, want dat is precies wat robots.txt is: een expliciete aanwijzing wat een robot wel en niet mag komen doen.

      Ik vind dat openbare inhoud gewoon ongevraagd gecrawld en gearchiveerd zou moeten kunnen worden, maar als een site expliciet aangeeft wat je wel of niet mag crawlen vind ik dat je je daaraan moet houden

      1. Dit dus. Ik begrijp niet helemaal waarom KB überhaupt toestemming vraagt om een website te indexeren. Google en webarchive doen dit al zo verschrikkelijk lang. Als KB hier tijd en geld in wil steken…. lekker doen. Ik zie in ieder geval absoluut geen probleem in het indexeren van een openbare webpagina.

        1. Google houdt zich aan wat er in robots.txt en ook aan wat er in de “Robots” meta tags staat. De KB negeert dat alles botweg. Diverse webarchivers publiceren de naam van hun User-agent en houden zich eraan als die in robots.txt wordt geblokkeerd. De KB doet geen van beide.

  3. Laat weer zien hoe gebroken het auteursrecht is; Google doet dit al jaren, en kan dat onder Amerikaanse fair use regels gewoon doen. Met zulk gezever kan Europa dus nooit concurreren met de Amerikanen.

    Voor mensen die echter robots.txt negeren is er een kleine technische oplossing: zet daar een paar bestanden in die, als je ze wel benaderd gelijk de site voor het betreffende IP adres een uurtje op slot zet, eventueel te verlengen tot een dag bij recidive. Het negeren van robots.txt is vaak dom, omdat het ook vaak een eindeloze hoeveelheid gegenereerde pagina’s uitsluit.

        1. En daar zit m.i. dan ook het probleem: The Internet Archive heeft al zoveel gedaan dat het KB weinig toevoegt en daar komt dus bij dat TIA dus wél doet aan het respecteren van robots.txt Als het KB dan per se wil doen wat TIA als zolang doet, dan zouden ze op zijn minst robots.txt moeten respecteren. Daarmee lijkt mij het probleem opgelost, in ieder geval voor de meeste website-beheerders.

    1. Dit is precies de reden waarom ik een bloedhekel heb aan het hele concept achter robots.txt in de root. Het idee is wel goed, alleen de uitwerking is puinzooi. Het gevolg van deze gebrekkige opzet is dat je mappen die je eigenlijk verborgen wilt houden moet openbaren om te voorkomen dat de spider er in gaat. Je had toch veel beter kunnen werken met een aparte robots.txt voor elke map, aanwezig in elke individuele map? Dan moet de spider eerst de mapnaam raden voordat ze gevonden wordt. En vervolgens stuit de spider op robots.txt in de mapnaam die het net geraden heeft.

      Verder vind ik het totaal niet kunnen dat robots.txt om wat voor reden dan ook genegeerd wordt. Het voelt een beetje aan als een zijdeur achter in een bakstenen winkel waar met rode chocoladeletters op staat “Privé. Verboden toegang voor onbevoegden!” en jij trapt die deur in en loopt doodleuk naar binnen. Wat is dat vreselijk asociaal. Vooral als je het doet om vast te leggen wat er zich in deze privé gedeeltes bevindt.

      1. Dat valt best wel mee. Je geeft namelijk aan dat de folder /scripts en /images verboden terrein zijn. Als een crawler dan alsnog die folders benaderd dan krijgt deze nog steeds geen pagina, behalve een 404, tenzij je een default pagina in die folder hebt staan.

        Verder, alles in die verborgen folders heb je in principe toch wel benaderbaar vanuit je site. Je pagina zal linken naar de scripts en afbeeldingen in die folders en kunnen zo gevonden worden. Wil je echt content buiten je site houden dan moet je ze niet binnen je root folder van je site bewaren. Je backend code kan er dan nog altijd bij en op speciale manieren streamen naar de bezoeker. Maar die content is dan niet rechtstreeks meer te benaderen.

        Da’s een techniek die ik ooit met plaatjes heb gedaan. De site stond op de ene schijf en originele plaatjes op een tweede. Mijn code had het pad naar die plaatjes hard gecodeerd en kon er dus makkelijk bij om ze in te lezen en een watermerk toe te voegen, plus andere conversies, indien ze werden opgevraagd. Aangezien ik misschien 20 bezoekers per dag kreeg was dat ook prima te doen.

      2. Als je niet wilt dat een spider zich in een “prive-gedeelte” begeeft, dan blokkeer je de toegang tot dat gedeelte toch gewoon op technische wijze?

        Een groot deel van de reden waarom robots.txt vaak genegeerd wordt door archiveringsprojecten is omdat webmasters niet begrijpen wanneer het wel en niet de juiste oplossing is, en vaak gewoon de hele boel dichtgooien zodat ze er niet over na hoeven te denken. Sterker nog, sommige software doet dit standaard. Veelal wordt dit gedaan met het idee dat het “kopieerbeveiliging” is (wat het dus niet is) of andere misvattingen, met alle gevolgen van dien.

        Zie ook http://www.archiveteam.org/index.php?title=Robots.txt voor meer redenering daarover.

  4. Ik had altijd begrepen dat de KB tot taak had van ieder gepubliceerd boek een exemplaar in de collectie te houden. Bij uitbreiding vindt ik het dan ook logisch om dat ook voor websites te doen. Die zijn uiteindelijk ook gepubliceerd.

    De KB mag natuurlijk niet zomaar dat materiaal herpubliceren, dan zit er een auteursrechtenkant aan. Maar wel bewaren.

    Dat negeren van robots.txt …. Tja, daar kun je twee kanten mee op. Een auteur van een fysiek boek heeft ook niets te zeggen over wie een boek koopt en of dat boek dan in een bibliotheek terecht komt. Waarom zou dat hier anders moeten zijn?

    Aan de andere kant, dit is natuurlijk geen voorbeeld van hoe de overheid (KB is toch overheid???) hoort om te gaan met burgers. En het is natuurlijk in ieder geval onbeschoft en dus contraproductief.

    1. Klopt, maar die taak komen ze naar door bij elke uitgever te vragen of ze alsjeblieft een gratis boek op willen sturen. Je bent als uitgever niet verplicht om mee te werken. Dat is dus opt-in, en logisch ook want een fysiek boek op basis van opt-out meenemen noemen ze diefstal 😉

      1. Maar een boek dat de uitgever niet wil geven kunnen ze altijd nog in de boekhandel om de hoek kopen, en dat doe ze misschien ook wel. Het is dus opt-in met het wegnemen van het opten als je niet in-opt.

    2. Je voorbeeld gaat een beetje (boel) mank. Een robots.txt is niet te vergelijken met een uitgever of een boekhandel. Die server is van mij en die pagina’s zijn van mij. Ik laat ze zien en ik stel de regels daarvoor op. Door middel van robots.txt bepaal ik of de bestanden op mijn server openbaar zijn voor webspiders. Deze file bestaat niet om spiders en indexers te pesten, maar dient duidelijke en legitieme doelen.

      Als ik een garage verkoop hou en ik zet daarvoor de deur van de garage open, lijkt het me duidelijk dat mensen de garage in mogen om te kijken wat ik aanbied. Maar dat wil nog niet zeggen dat als er achter in de garage een deur is naar mijn huis, dat ze ook in mijn woonkamer mogen rondsnuffelen. Dat is hoe robots.txt werkt en daar heeft de KB zich gewoon aan te houden.

      1. Je hebt in principe gelijk. Maar zoals je zegt: je laat de pagina’s zien. Ze zijn voor iedereen te lezen, ze zijn publiek. Daarmee ben je de controle over de eerste publicatie kwijt, net zoals die uitgever dat is zodra zijn boek gekocht is.

        Dat anderen er niet veel mee mogen doen (in tegenstelling tot het boek), is ongetwijfeld waar. Maar als de KB zijn taak opvat als het documenteren van publicaties op websites, is er wat voor te zeggen dat ze het wel mogen negeren.

        Waar zit de logica dat de KB wel een medewerker mag vragen jouw pagina te bekijken en op te slaan voor studie door het nageslacht, maar die taak niet mag automatiseren?

        1. Als KB zou vragen om toestemming om je hele site te crawlen en op te slaan, dan zou niemand er een probleem mee hebben. Het probleem is juist dat ze het niet vragen. En zoals al aangehaald door het artikel, opt-out mailtjes rondsturen is geen toestemming vragen. Als dat mailtje niet aankomt of in de spam box terechtkomt wil dat zeggen dat ze vervolgens mijn gestelde regels over gebruik aan hun laars kunnen lappen.

          Om op mijn garage verkoop terug te komen, als iemand daar komt en die vraagt mij of ze even van het toilet gebruik mogen maken, zal ik daar waarschijnlijk geen probleem mee hebben. Als mensen daarentegen ongevraagd mijn huis binnen lopen om naar het toilet te zoeken dan zal ik daar behoorlijk boos om worden.

  5. Beetje dom natuurlijk van de KB. Indexeren (en herpubliceren!) zonder direct rekening te houden met licenties op de site en robots.txt. Die laatste twee zijn toch expliciete wensen van website beheerders, en tenzij je een wettelijke basis hebt, kan je op je klompen aanvoelen dat je gelazer krijgt als je die negeert.

    Als ze nou een beetje slim waren geweest hadden ze gezegd dat de robots.txt (en eventueel licentie) respecteren, met enkele uitzonderingen:

    • als die er niet bij staat, dan gaan ze er van uit dat ze mogen archiveren en herpubliceren, tenzij er een expliciete opt-out gegeven wordt. Daarmee ben je netjes bezig, en kan je toch heel veel herpubliceren.

    • als mensen opt-in geven dan mogen ze de robots en licentie negeren. Dit is een kwestie van bedelen. Even moeite doen bij een paar grote websites. Eventueel kan je er voor kiezen om dit wel de indexeren, maar pas na 70 jaar te herpubliceren.

    1. Eventueel kan je er voor kiezen om dit wel de indexeren, maar pas na 70 jaar te herpubliceren.

      Dan moet je wel ook direct de auteur vermoorden, want die 70 jaar voordat een werk publiek domein wordt begint pas te tellen vanaf de dood van de auteur.

  6. @arnoud Je vergeet artikel 16n, lid 1, 3 te noemen. Dat deel zegt: “het werk raadpleegbaar te houden als de technologie waarmee het toegankelijk gemaakt kan worden in onbruik raakt. “

    Dat is onderdeel van de erfgoedtaak van de KB: verzamelen, verval tegengaan, raadpleegbaar houden. Raadpleegbaar betekent in dit geval semi-openbaar, want het e-depot van de geharveste websites zijn alleen binnen de muren van de nationale bibliotheek toegankelijk. Je moet er voor naar Den Haag om geharveste websites te bekijken.

    1. En in hoeverre raakt de website-technologie in onbruik? Sterker nog: het is totaal andersom! Steeds meer mensen beschikken over internettoegang en het aantal websites blijft dus ook groeien. Er is dus totaal geen sprake van “in onbruik raken”. Kijk, met een eigen server is dat dan nog tot daaraan toe aangezien je die natuurlijk makkelijk permanent plat kan gooien. Maar stel nu dat je bijv. bij Amazon host (S3), nou Amazon gaat echt niet morgen stoppen daarmee want die verdienen er dik aan. Dus er is geen sprake van “in onbruik raken”.

      1. Op de lange termijn durf ik die uitspraak niet aan. Hoe kort geleden was het niet dat Lycos, Geocities, Myspace en Hyves de bastions waren voor websites en profielen? En hoe is het afgelopen met het bekende Planet.nl dat jarenlang dé nieuwsbron was van internet? Altavista zou DEC ook nooit uit de lucht halen gezien hun onbetwiste machtspositie.

      2. Het aantal websites groeit nog steeds, ja. Tegen de klippen op. Vooral de hoeveelheid geleuter en desinformatie explodeert. Maar wat zegt dat over de toekomst van webtechnologie? Niks. Waar kun je nog magneetbanden uit de 60-er jaren lezen? Waar nog 5.25″ 128kB floppies? Waar nog ZIPdisks? Allemaal hebben ze furore gemaakt, maar over de toekomst ervan heeft het allemaal niets gezegd. Ook webtechnologie gaatverdwijnen. Gegarandeerd. Of het nu over 10 jaar of 50 jaar is. Websites van nu kun je dan alleen nog is “digitale musea” lezen. Zoals je de stoomtechniek die ooit furore maakte en de maatschappij compleet heeft veranderd, alleen nog maar in musea kunt bekijken, en op nog veel minder plaatsen in actie zien. Geeft dat het KB nu het recht om beveiligingen te doorbreken en zonder opt-in websites te harvesten? Nee!

  7. Als er persoonsgegevens gepubliceerd zijn die de eigenaar (dus degene over wie ze gaan) verwijderd wil hebben, dan moet de verantwoordelijke (de eigenaar van de website) daar in beginsel gehoor aan geven. Onder de nieuwe regels (AVG) is deze verantwoordelijke er óók verantwoordelijk voor dat derden aan wie de gegevens doorgeleverd zijn deze wissen. Als nu aangegeven is (robot.txt) dat deze gegevens niet geïndexeerd (en dus ook niet geherpubliceerd) moeten worden en de KB handelt zoals beschreven, wat betekent dat dan onder die nieuwe privacyregels?

  8. De Koninklijke Bibliotheek stuurt nog een mailtje met de vraag of ze je website mogen archiveren. Volstrekt zinloos als je de lijst van meer dan 40 instellingen in de wereld ziet die digitale uitingen op het Internet ongevraagd archiveren. Waarbij natuurlijk de WayBack Machine in de US en Egypte het grootst is. Vergelijk het met het verbod op de verkoop van Mein Kampf. Het boek is op meer dan 100 plaatsen te downloaden. We denken nog steeds een grens te hebben bij dit soort zaken. Overzicht online webarchieven: Lijst webarchieven

  9. De KB leunt inderdaad op artikel 16n Aw (de preserveringsexceptie) maar maakt ook nog eens gebruik van artikel 15h Aw (besloten netwerk in bibliotheek, museum of onderwijsinstelling) om discussies over potentiële inbreuken binnen de perken te houden. Zoals Eric van den Berg al aangaf is het e-depot/webarchief alleen te benaderen binnen de muren van de KB (het besloten netwerk) en maakt de KB daarmee geen inbreuk waar het opnieuw openbaar maken aangaat.

    Dat bij het harvesten toestemming van alle rechthebbenden nodig is blijft onverminderd van toepassing. Dat is in de praktijk natuurlijk ondoenlijk want niet alleen reageren site-eigenaren in de meerderheid van de gevallen niet, ze zijn ook maar zelden rechthebbenden van alle auteursrechtelijk beschermde content op hun eigen sites. Kiezen voor een opt-out benadering is dan de enige manier om ooit nog een webarchief op te bouwen. Zelfs The Wayback Machine – die archiefkopieën maakt van miljoenen sites – werkt met datzelfde principe: ze indexeren alles en verwijderen op verzoek jouw site. Nu kan The Wayback Machine leunen op het fair use beginsel (en is dat ook bij de rechter al getoetst) en moet de KB feitelijk maar hopen dat het goed blijft gaan bij gebrek aan een uitzondering in de Auteurswet die digitaliserings- en archiveringstrajecten in Nederland wettelijk mogelijk maken.

    Dat de KB robots.txt negeert lijkt me persoonlijk niet verstandig. Het voegt weinig toe (als Google het niet mag zien, waarom zou de KB dat wel mogen en moeten?) en zou juist aanleiding kunnen zijn voor een derde partij om de werkwijze van de KB (juridisch) ter discussie te stellen bij een rechter. Toegegeven, die kans is niet groot maar toch.

    1. Zoals Eric van den Berg al aangaf is het e-depot/webarchief alleen te benaderen binnen de muren van de KB (het besloten netwerk) en maakt de KB daarmee geen inbreuk waar het opnieuw openbaar maken aangaat.

      Ten eerste kun je als lid van de KB het webarchief binnen de KB vanaf je eigen laptop benaderen en delen kopieren.

      Ten tweede is het wel degelijk de bedoeling dat het webarchief op termijn online gaat: https://www.kb.nl/bronnen-zoekwijzers/databanken-mede-gemaakt-door-de-kb/webarchief-kb “In een latere fase zal het KB-webarchief ook online beschikbaar komen”.

      Tot slot is het onduidelijk hoe de KB met embedded content omgaat. Dat een website bepaalde content met toestemming embedded mag publiceren impliceert niet dat de aanbieder van die content daarmee ook toestemming geeft voor archivering.

    1. Ik zou willen verdedigen dat iemand die een pagina op internet plaatst daarmee impliciet toestemming geeft voor gebruik zoals het bekijken van een pagina :-), maar ook de opslag ten behoeve van historische redenen zoals een internetarchief van de KB

      Makers/eigenaren/rechthebbenden van websites zijn uitstekend in staat om aan zowel zoekmachines als archivers kenbaar te maken wat wel en niet is toegestaan, en wel middels robots.txt en meta data (“noarchive”!). Die aanwijzingen zijn dan nadrukkelijk ook voor de KB bedoeld. Negeert de KB-bot die botweg, dan vragen ze om maatregelen om goedschiks of kwaadschiks buiten de deur te worden gehouden.

      1. Ik heb niks tegen robot.txt, prima manier om bots te reguleren, hoewel niet juridisch afdwingbaar (althans, dat schreven Boonk en ik in 2005, Regulating Website Access for Automated Means Such as Search Bots and Agents: Property or Contract? http://ssrn.com/abstract=1007183) is mijn punt dat ik het per e-mail vragen van toestemming omslachtig/onnodig vindt

        1. Ik heb niks tegen robot.txt, prima manier om bots te reguleren, hoewel niet juridisch afdwingbaar

          Het gaat niet alleen om robots.txt, maar ook om de op robots gerichte metadata. Het aan bots expliciet verbieden van toegang tot c.q. archiveren van bepaalde mappen of pagina’s is een vorm van expliciete kennisgeving van c.q. uitoefening van copyright. Negeert een bot dat, dat komt dat erop neer dat de organisatie achter de bot zich schuldig maakt aan downloaden uit illegale bron. Zeker in een geval als het onderhavige, waar het gedownloade materiaal expliciet bestemd is voor herpublicatie. Het ligt nogal voor de hand dat er mensen zullen zijn die dat absoluut niet willen, en de enige manier om het goed te regelen is dan via opt-in. En ja, daar zal een mail aan te pas moeten komen.

  10. Een constatering: helaas is in de praktijk de inhoud van een robots.txt vooral een artefact van de installatie van een CMS. Als er al over de inhoud van robots.txt nagedacht is, dan is dat uit oogpunt van SEO, zeker niet vanuit perspectief webarchivering. Een enkeling daargelaten, uiteraard.

  11. Een constatering: helaas is in de praktijk de inhoud van een robots.txt vooral een artefact van de installatie van een CMS.

    Daar verschuilt de KB zich ook achter. Ten onrechte, want als een bot robots.txt straal negeert, dan kan hij ook niet zien of er directieven specifiek voor die bot in staan. Denk bijv. aan iets in de trant van:
    User-agent: KB-archiver
    Disallow: /
    Dat is een niet mis te verstaan directief dat de bot handelend onder de naam “KBarchiver” de site niet mag crawlen.

    Op zijn minst zou de KB het fatsoen moeten hebben om:
    – de naam waaronder de bot opereert te publiceren;
    – robots.txt te bekijken of er zo’n gericht directief in staat;
    – zo ja, daarnaar handelen.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.