Mag je de Twitter API scrapen voor wetenschappelijk onderzoek?

twitter-agent-politieEen lezer vroeg me:

Deze meneer heeft een mooie data-analyse gemaakt van Donald Trump zijn tweets: Trump zelf gebruikt een Android-apparaat en een ghostwriter nuanceert de boel vanaf een iPhone. Daarbij vroeg ik mij af of dit zomaar mocht. Twitter zegt van wel bij onderzoeksdoeleinden (onder bepaalde voorwaarden). Zoals dat je je dataset niet mag delen met anderen, wat het weer moeilijk maakt voor écht onderzoek.

Op het eerste gezicht zou je zeggen dat onderzoek op Twitterberichten geen probleem zou zijn. Onderzoek op basis van krantenberichten is al decennia oud en geen probleem. En wat is Twitter nou anders dan een krant, zij het sneller en korter en met megaveel meer berichten?

Nou ja, om er eens eentje te noemen: Twitter is een dienst, en een krant is een product. Kranten kun je dan ook legaal inzien vanuit allerlei plekken, zoals bibliotheken, zonder dat daar allerlei gebruiksvoorwaarden gelden. Natuurlijk is het kopiëren van krantenberichten auteursrechtelijk een probleem, maar onderzoeken welke artikelen in Nederlandse kranten door ghostwriter zijn geschreven, is volgens mij volstrekt legaal.

Bij Twitter ligt dat anders. Twitter is een dienst, en kan daar voorwaarden aan verbinden. Die hebben ze dan ook, maar ik kan er geen specifieke regels over wetenschappelijk onderzoek in vinden. Deze API licentie gaat primair over het kunnen vertonen van tweets in je eigen dienst, eventueel licht gemasseerd om ze passend te krijgen. Het is bijvoorbeeld expliciet verboden de berichten op te slaan, wat onderzoek al bemoeilijkt – helemaal voor het verifieerbaar maken van je onderzoek want je mag de dataset dus niet vrijgeven.

Op zich is dat legaal. Een dienstverlener mag zelf weten wat ze toestaat met de resultaten van haar dienst, er is geen regeling zoals de auteursrechtelijke uitputting die bepaalt dat beschermde producten zoals boeken of kranten vrij bruikbaar zijn voor legale verkrijgers.

In de praktijk lijkt het wel mee te vallen. Ik heb nog nooit gezien dat Twitter een sommatie stuurde naar een researcher, en kan me dat (afgezien van research dat de servers overbelast) ook eigenlijk niet voorstellen. Twitter zou er weinig mee te winnen hebben en veel te verliezen. Maar afhankelijk zijn van een welwillende opstelling van een dienstverlener is natuurlijk wat anders dan iets mógen.

Arnoud