Kan een tweetverzameling als publiekdomeindownload worden aangeboden?

open-data-overheid-twitterIntrigerende via Twitter: van een recent overheidscongres (Open data next 27 september 2013) werden alle tweets gebundeld en beschikbaar gesteld als .csv download. Mag dat? En vooral: mag er dan “Licentie: Publiek domein (CC0)” bij staan?

Het is op zich een heel leuk idee om alle tweets van je congres of dergelijke gebeurtenis te bundelen. Er zijn diverse diensten die dit makkelijker en mooier maken, Storify is denk ik de bekendste. Maar je kunt het ook zelf down, gewoon downloaden en netjes als zipfile of zo aanbieden.

Of dat van Twitter mag, is een lastige. Ze zeggen in de TOS dat je alleen via hun API mag werken:

Except as permitted through the Services, these Terms, or the terms provided on dev.twitter.com, you have to use the Twitter API if you want to reproduce, modify, create derivative works, distribute, sell, transfer, publicly display, publicly perform, transmit, or otherwise use the Content or Services.

Nu heeft de Auteurswet nog altijd het citaatrecht als uitzondering, en daar kunnen die TOS niets aan veranderen. Dus wie tweets wil citeren mag zijn gang gaan, en hoeft daarbij niet de Twitter API te gebruiken. Echter, voor citeren is vereist dat je een bepaald doel hebt: aankondiging, bespreking, bekritiseren “of daarmee vergelijkbaar doel”. (Daarnaast is bronvermelding verplicht maar dat zit netjes in de Tweets.)

Is het bundelen van de complete set tweets “ter informatie en om terug te lezen” zo’n vergelijkbaar doel? Ik weet het niet. Het voelt me even iets té massaal. Aan de andere kant: het is toegestaan een reader te maken met bundels citaten uit boeken of tijdschriften, dat kan ook best massaal worden. Verschil is echter wel dat je er dan meestal eigen content aan toevoegt, wat bij een Tweetdump niet het geval is.

Een organisatie zou in de inschrijfvoorwaarden een tweetdumplicentie kunnen bedingen: wie zich inschrijft en tweet met hashtag #xyz geeft toestemming voor opname in het tweetdumpbestand en vrije verspreiding daarvan.

Los daarvan is die tekst met “Licentie: Publiek domein (CC0)” een beetje erg gek. CC0 is een verklaring dat de auteur afstand doet van zijn auteursrechten. Dat zou je dus hier kunnen opvatten als “al deze tweets zijn vrij van auteursrechten”, en dat is gewoon niet waar. Die twitteraars hebben geen afstand gedaan. Als wordt bedoeld, het bestánd als zodanig, de gegevensverzameling is vrij van rechten, ja dan klopt het maar eh dúh dat een dump vrij van rechten is. Die tekst zou ik dus aanpassen als ik webmaster was daar.

Arnoud

15 reacties

  1. Dank voor blog! De verzameling van tweets is bedoeld als het bieden van een user generated verslag van het congres in herbruikbare vorm. De tweets zijn verzameld via de API van twitter, dus dat lijkt wel goed te zitten. Dan natuurlijk het auteursrecht. De intentie was en is om het auteursrecht van de twitteraars in stand te laten, en volgens mij gebeurt dat ook met een CC0 verklaring, het is namelijk zo dat via de CC0 verklaring afstand gedaan wordt van de rechten waar ik afstand van kán doen, en dat kan ik niet van de auteursrechten omdat deze niet bij mij liggen! dus blijft met deze CC0 verklaring het auteursrecht van de twitteraars in stand.. Wel neem ik afstand van eventuele andere rechten als het databenkenrecht wat ik ongewild ben opgelopen met het aanleggen van de verzameling van tweets.. Overigens gebeurt dit verzamelen van onze berichten op social media continue door allerlei organisaties/individuen die het goed voor hebben met onze portemonnee of onze veiligheid.. Waarbij ik spreek in de ik vorm als “webmaster van data.overheid.nl” (volgende ingewikkelde vraag trouwens…) Benieuwd naar jullie zienswijze!

    1. Je kúnt inderdaad geen afstand doen van andermans rechten. Echter, de tekst wekt de indruk van wel. Daarom zou ik die tekst aanpassen als ik jou was. Je ziet wat het oproept.

      En wat de API betreft: de TOS van Twitter zegt inderdaad dat je die mag ópvragen via de API, maar ook hérpubliceren mag enkel en alleen via de API. Jij herpubliceert in bulk buiten de API om, dus volgens mij levert dat een overtreding op.

  2. De Twitter-TOS zegt dat de rechten van de auteurs bij de auteurs blijven en dat de licentie die Twitter afneemt ‘non-exclusive’ is, dus ik zie niet hoe ze vervolgens de auteurs kunnen verbieden hun Tweets alsnog elders te verspreiden. In het voor Twitter gunstigste geval hebben ze dan strijdige voorwaarden. De ene voorwaarde is ook niet explicieter dan de andere.

    Creative Commons noemt de licentie zelf Public Domain, dat is de naam van het beestje. Het is inderdaad een onfortuinlijke naam, maar ergens kun je je afvragen hóe onfortuinlijk als je kijkt naar hoeveel verschillende betekenissen die term ‘publiek domein’ al heeft.

    1. De auteur kunnen ze het niet verbieden, de ‘You’ is een afnemer van andermans tweets. Ja, je kunt via de API je eigen tweets opvragen maar dan krijg je de discussie over redelijke contractsluitleg of dat dan óók via de API moet, en dan kom je volgens mij binnen 2 seconden bij “welnee, kom nou toch”. (Maar misschien denk ik daar te makkelijk in.)

      En ja, “public domain” heeft heel veel betekenissen, maar in de legal code van CC0 zie ik echt alleen die van “afstand van auteursrecht”. En niet “is algemeen beschikbaar” of “iedereen kan erbij”. Vandaar dus mijn zorg dat mensen gaan denken, die hele tweetverzameling is vrij van auteursrechten.

    1. Ik vrees dat je niet verder kunt gaan dan “Onbekend, neem contact op met de individuele auteurs”. Je aggregeert een héle berg werken en je weet niet welke licentie er aan ieder van die werken hangt.

      Ik aarzel zelfs of de .csv wel online mág omdat je de Twitter TOS schendt. Maar dat is iets tussen Twitter en Rijksoverheid.

  3. Is er in deze een vrijstelling voor wetenschappelijk/statistisch onderzoek?

    Zie ook de datasets op https://crowdflower.com/open-data-library waar deze geannoteerd zijn voor machine learning doeleinden.

    Ik vergelijk dit met het opnemen van een TV programma. Dit mag. Je mag een dataset samenstellen voor eigen gebruik. Wat waarschijnlijk niet mag is de band herpubliceren voor anderen.

    Twitter staat via de TOS niet toe dat tweet teksten worden opgenomen of herpubliceerd.

    you may not resyndicate or share Twitter content, including datasets of Tweet text and follow relationships. You may, however, share datasets of Twitter object IDs, like a Tweet ID or a user ID. These can be turned back into Twitter content using the statuses/show and users/lookup API methods, respectively.

    Dan kan je dus mensen zelf de tekst bij een tweet ID laten opzoeken via de API, zoals Twitter dit wil. In het voorbeeld van het opnemen van een TV programma wordt dit: Je geeft mensen alleen het tijdstip, de zender en een code om hun videorecorder te laten starten op het juiste moment (of een uitzending van uitzendinggemist te streamen).

    Je eindigt dan wel met precies dezelfde dataset, maar iedereen moet dubbelop werk doen om Twitter tevreden te houden. Een loophole in de TOS dus, die extra werk/bandbreedte voor de gebruiker en Twitter betekend. Komt door mijn giecheltest, maar niet door mijn zuchttest.

    1. Hier een ouder voorbeeld van hoe een Amerikaanse overheidsorganisatie tweet datasets aanbied op de meest stricte manier:

      http://trec.nist.gov/data/tweets/

      -The Tweets2011 corpus is unusual in that what you get is a list of tweet identifiers, and the actual tweets are downloaded directly from Twitter, using the open-source twitter-tools. -However, to obtain the lists of tweets to be downloaded (i.e. the “tweet lists”), a data usage agreement must be signed. — usage agreement: may only be used for research — summaries, interpretations and analysis may be derived and published … provided it is not possible to identify a user — small excerpts of tweet texts may be published in a scientific context, provided it is in accordance with the Twitter TOS -You MUST NOT re-distribute the tweet lists or the corpus obtained by using the tweet lists, as this breaks both the Tweets2011 corpus license agreement and the Twitter Terms of Use.

      Ik heb deze dataset proberen te downloaden, maar op de derde dag (API is traag) veranderde Twitter opeens de API zodat de tools niet meer werkte.

      Deze wetenschappers met deze paper http://cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf waren wel bereid een volledige dataset met tweet tekst te delen. Redenering: Dit omdat een dataset statisch moet zijn voor een benchmark. Als tweets ineens gedelete zijn (bijvoorbeeld omdat het spammers waren of omdat gebruikers tweet hebben gedelete) dan is het wetenschappelijk onderzoek niet meer te reproduceren door andere wetenschappers met precies hetzelfde algoritme. Of om aan te tonen dat een ander algoritme beter werkt.

  4. Veel congressen laten alle tweets met een bepaalde tag zien op een groot scherm. Dit wordt ook opgenomen door cameras en fototoestellen en eventueel herpubliceerd met een eigen licentie. Dit zou bij een stricte behandeling van de Twitter TOS een overtreding zijn.

    Twitter zegt dat de tweet inhoud van de auteurs is, maar zegt wel hoe er mee omgegaan moet worden. Je mag het niet eens delen. Daarmee stellen ze de TOS boven het eigenaarschap van de auteur.

    You retain your rights to any Content you submit

    Als dan het auteursrecht van een tweet bij de auteurs ligt is dit dan wel geldig auteursrecht? Is een zin van 140 tekens een artistiek creatief werk waar veel moeite voor is gedaan?

    #opendata prominenten nog een keer op een rijtje! #odnext Link

    Dat is een feit of een mening. Geen creatief werk dat volgens mij auteursrecht verdiend. Geen werk van letterkunde, wetenschap of kunst.

    Dus: Twitter zegt: auteursrecht ligt bij auteur, auteur verdiend geen auteursrecht volgens wet op de tweet inhoud, dus datasets met tweet teksten herpubliceren is geen probleem. Twitter is zo publiek en spontaan en gemakkelijk, dat auteursrecht opeisen voor je tweets, hetzelfde is als portrecht gaan eisen voor een foto die tijdens dat congress is gemaakt (of een soundbite in een kroeg). Datasets met tweet inhoud dienen de ‘free flow of information’ en onredelijke TOSen staan dit in de weg.

    Het is toch onredelijk bezwarend dat een TOS zeggenschap heeft over eenmaal afgenomen data? Over hoe ik dat consumeer? Dat ik de website niet mag benaderen om tweets van de website te copypasten in een text-bestand, maar daar een API voor moet gebruiken?

    Onder werken van letterkunde, wetenschap of kunst verstaat deze wet: 1°. boeken, brochures, nieuwsbladen, tijdschriften en alle andere geschriften; 2°. tooneelwerken en dramatisch-muzikale werken; 3°. mondelinge voordrachten; 4°. choreografische werken en pantomimes; 5°. muziekwerken met of zonder woorden; 6°. teeken-, schilder-, bouw- en beeldhouwwerken, lithografieën, graveer- en andere plaatwerken; 7°. aardrijkskundige kaarten; 8°. ontwerpen, schetsen en plastische werken, betrekkelijk tot de bouwkunde, de aardrijkskunde, de plaatsbeschrijving of andere wetenschappen; 9°. fotografische werken; 10. filmwerken; 11°. werken van toegepaste kunst en tekeningen en modellen van nijverheid; 12°. computerprogramma’s en het voorbereidend materiaal;

    Ik zie daar niet zo snel een 140 tekens Tweet tussen staan. Ja, in die dataset vind ik: al deze tweets zijn vrij van auteursrechten.

    1. Als inbreuk op het auteursrecht op een werk van letterkunde, wetenschap of kunst wordt niet beschouwd een korte opname, weergave en mededeling ervan in het openbaar in een foto-, film-, radio- of televisiereportage voor zover zulks voor het behoorlijk weergeven van de actuele gebeurtenis welke het onderwerp der reportage uitmaakt, gerechtvaardigd is en mits, voor zover redelijkerwijs mogelijk, de bron, waaronder de naam van de maker, duidelijk wordt vermeld. (korter dan 140 tekens kan bijna niet)

      Het uitgangspunt van het de auteurswet is het beschermen van de maker van een werk, zodat deze zijn inspanning te gelde kan maken. Je kan een tweet niet te gelde maken en nauwelijks van inspanning spreken (behalve misschien het lastige toetsenbord op de mobiele telefoon). Een tweet heeft vrijwel altijd geen origineel karakter.

      Origineel karakter Het werk moet origineel zijn in die zin dat het een zekere creativiteit moet vertonen. Het werk moet een eigen, oorspronkelijk karakter hebben, dat wil zeggen dat de creatie niet mag zijn ontleend aan een ander werk. En het moet het persoonlijk stempel van de maker dragen. Daarmee wordt bedoeld dat bij het maken van het werk creatieve keuzes zijn gemaakt en dat het werk een schepping moet zijn van de menselijke geest. Kortom, het moet een ‘eigen intellectuele schepping van de maker’ zijn. Er is al sprake van originaliteit als het bijna niet mogelijk is dat verschillende mensen geheel onafhankelijk van elkaar tot dezelfde creatie zouden komen, zoals hetzelfde verhaal of precies dezelfde muziek. Hoe meer keuzes er gemaakt kunnen worden, hoe groter de kans op auteursrechtelijke bescherming.
      No, no, I didn’t go to England; I went to London. — Paris Hilton
    2. Ik zou niet op voorhand willen zeggen dat een Tweet nooit en te nimmer auteursrechtelijk beschermd kan zijn. Een haiku past in 140 tekens en is écht beschermd. Ook een creatieve observatie van een goeie schrijver kan best beschermd zijn. Maar ik denk wel dat je in 99% van de gevallen hergebruik via citaatrecht kunt rechtvaardigen: je haalt de tweet aan om je eigen verhaal te versterken, om iets te illustreren, aan te vullen of op te reageren.

      De 1% is dan dingen als een complete dataset herpubliceren, waar dus deze discussie over gaat.

        1. Retweeten is inderdaad herpubliceren, het is een nieuwe openbaarmaking want je stelt deze beschikbaar aan een nieuw publiek. Waarschijnlijk. Dat criterium komt uit het Europese Hof maar was in de context van televisie. En “uitzending op nieuw televisienetwerk” is wel een nieuw publiek, maar wat dit voor internet betekent weten we nog niet.

          Wel denk ik dat je een RT mag zien als citaat: een aankondiging of signalering, jongens dit moeten jullie lezen. Omdat de afzender erbij staat is de bronvermelding voldaan. Het zal een beetje van de context afhangen. Becommentarieer je die erboven of eronder dan geen probleem, signaleer je incidenteel iets leuks dan kan het ook wel maar bestaat je twitterfeed 100% uit retweets dan ga je volgens mij een stap te ver. Vergelijk het citeren van tekst uit een boek in je eigen boek versus het uitgeven van een citatenboek.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.