Mag je de Twitter API scrapen voor wetenschappelijk onderzoek?

twitter-agent-politieEen lezer vroeg me:

Deze meneer heeft een mooie data-analyse gemaakt van Donald Trump zijn tweets: Trump zelf gebruikt een Android-apparaat en een ghostwriter nuanceert de boel vanaf een iPhone. Daarbij vroeg ik mij af of dit zomaar mocht. Twitter zegt van wel bij onderzoeksdoeleinden (onder bepaalde voorwaarden). Zoals dat je je dataset niet mag delen met anderen, wat het weer moeilijk maakt voor écht onderzoek.

Op het eerste gezicht zou je zeggen dat onderzoek op Twitterberichten geen probleem zou zijn. Onderzoek op basis van krantenberichten is al decennia oud en geen probleem. En wat is Twitter nou anders dan een krant, zij het sneller en korter en met megaveel meer berichten?

Nou ja, om er eens eentje te noemen: Twitter is een dienst, en een krant is een product. Kranten kun je dan ook legaal inzien vanuit allerlei plekken, zoals bibliotheken, zonder dat daar allerlei gebruiksvoorwaarden gelden. Natuurlijk is het kopiëren van krantenberichten auteursrechtelijk een probleem, maar onderzoeken welke artikelen in Nederlandse kranten door ghostwriter zijn geschreven, is volgens mij volstrekt legaal.

Bij Twitter ligt dat anders. Twitter is een dienst, en kan daar voorwaarden aan verbinden. Die hebben ze dan ook, maar ik kan er geen specifieke regels over wetenschappelijk onderzoek in vinden. Deze API licentie gaat primair over het kunnen vertonen van tweets in je eigen dienst, eventueel licht gemasseerd om ze passend te krijgen. Het is bijvoorbeeld expliciet verboden de berichten op te slaan, wat onderzoek al bemoeilijkt – helemaal voor het verifieerbaar maken van je onderzoek want je mag de dataset dus niet vrijgeven.

Op zich is dat legaal. Een dienstverlener mag zelf weten wat ze toestaat met de resultaten van haar dienst, er is geen regeling zoals de auteursrechtelijke uitputting die bepaalt dat beschermde producten zoals boeken of kranten vrij bruikbaar zijn voor legale verkrijgers.

In de praktijk lijkt het wel mee te vallen. Ik heb nog nooit gezien dat Twitter een sommatie stuurde naar een researcher, en kan me dat (afgezien van research dat de servers overbelast) ook eigenlijk niet voorstellen. Twitter zou er weinig mee te winnen hebben en veel te verliezen. Maar afhankelijk zijn van een welwillende opstelling van een dienstverlener is natuurlijk wat anders dan iets mógen.

Arnoud

9 reacties

  1. Ik heb nog nooit gezien dat Twitter een sommatie stuurde naar een researcher, en kan me dat (afgezien van research dat de servers overbelast) ook eigenlijk niet voorstellen.

    Dat ligt eraan hoe je ernaar kijkt. Het mag dan geen sommatie zijn, maar Politwoops is wel degelijk afgesloten door Twitter – en dat zou ik toch echt onder onderzoeksdoeleinden scharen, net zoals dat het geval zou zijn bij aggregratie van fysieke krantenknipsels met uitspraken van politici.

    1. maar Politwoops is wel degelijk afgesloten door Twitter – en dat zou ik toch echt onder onderzoeksdoeleinden scharen,

      Je kunt het misschien onder nieuwsgaring scharen maar niet onder onderzoek tenzij er door politwoops daadwerkelijk iets in die twitter uitingen onderzocht werd.

  2. Ik begrijp het niet. Het gaat hier toch om openbare tweets? Twitter stelt die toch beschikbaar aan iedere internetgebruiker, en niet alleen aan mensen die een account hebben aangemaakt?

    Ik heb zelf geen Twitter-account, maar ik bekijk wel eens tweets. Ik kan deze bekijken zonder akkoord te zijn gegaan met gebruiksvoorwaarden o.i.d.; er is zelfs geen “I agree” knop langsgekomen. Misschien is er wel ergens een heel klein linkje “algemene voorwaarden”, maar alleen het feit dat ik een site bezoek betekent nog niet dat ik akkoord ben met de algemene voorwaarden van die site, al is het maar omdat je eerst de site moet bezoeken voordat je je überhaupt kan informeren over de inhoud van de algemene voorwaarden. Ik zie de algemene voorwaarden meer als eenzijdige mededeling van “dit vinden wij een redelijke manier om met elkaar om te gaan”. Die redelijkheid valt altijd te betwisten. Voor zover het bestaan van algemene voorwaarden überhaupt juridisch effect heeft t.o.v. een situatie zonder algemene voorwaarden, waarin ook redelijkheid wordt verlangd, zou dat effect helemaal in het voordeel van de site-bezoeker moeten zijn. Het zelfde geldt voor alle eenzijdige verklaringen.

    Ik vind de afhankelijkheid van Twitter als dienstverlener toch wel een nadeel. Ik zou liever een Twitter-achtig systeem zien dat op een Bittorrent-achtige manier tweets verspreidt. Waarom zou een centrale dienstverlener voorwaarden mogen stellen aan het gebruik van tweets? Wat mij betreft is dat misbruik van een machtspositie, en een reden om van de machthebber af te willen.

    1. Klopt, maar als je grootschalig onderzoek wilt doen dan wil je eerst een bak tweets, en die kun je alleen downloaden via de API van Twitter. En daar zitten voorwaarden aan die dan wél geldend zijn. Ik zie ook geen juridisch probleem met handmatig zoeken en analyseren, het lijkt me alleen zo onpraktisch.

      1. Een alternatief is om de web interface (de HTML versie, niet de API) te crawlen. Waarschijnlijk moet je wel een rate limiter toepassen om niet tegen DoS-maatregelen aan te lopen, en misschien werkt het beter als je via zoiets als TOR een veelheid van IP-adressen gebruikt, en na afloop moet je nog de berichten uit de HTML vissen, maar zeker voor kleinere datasets (bijv. alle tweets van één account) zou het goed moeten kunnen.

    2. Waarom zou een bedrijf als Twitter dat een dienst aanbiedt, al dan niet gratis, geen voorwaarden mogen stellen aan het gebruik van tweets, de dienst en het gebruik van haar servers?

      Dat je liever een andere dienst zou willen zien is een ding, maar dit is iets totaal anders.

      1. Omdat het niet om de dienst gaat, maar om de gegevens die zich daarop bevinden. Het platform is slechts a “means to an end”, en uiteindelijk zijn die tweets helemaal niet van Twitter, maar van haar gebruikers.

        Overigens is de afhankelijkheid van hun platform helemaal het gevolg van hun eigen keus om herpublicatie niet toe te staan. Als ze niet willen dat hun infrastructuur als “publiek te gebruiken” wordt gezien, dan moeten ze ook niet proberen om het monopolie te behouden over de distributie van de tweets.

        1. Gegevens zijn niets. Twitter is het equivalent van een café waar iedereen mag praten. Jij vraagt nu als onderzoeker of de cafébaas van iedereen wil bijhouden wat hij zegt en of hij dat aan jou wil geven. De cafébaas mag daar toch voorwaarden aan stellen, ook als hij het grootste café ter wereld is en het algemeen bekend staat als de beste debat- en discussieplek.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.