Mag je reacties gebruiken voor wetenschappelijk onderzoek?

Een lezer vroeg me:

Ik wil wetenschappelijk onderzoek doen naar stijlontwikkelingen in de taal, en wil daarvoor onder meer reacties van diverse grote forums gebruiken. De beheerders geven aan dat dat niet mag vanwege auteursrecht, maar zit er wel auteursrecht op de vaak korte en simpele reacties die je overal vindt? En is er geen uitzondering voor wetenschappelijke studie?

Auteursrechtelijk is het vrij simpel, als er een “eigen intellectuele prestatie” is geleverd dan zit er auteursrecht op de reactie. Een enkele “+1” of dergelijke opmerking is dus vrij, maar een zin of twee komt al door die toets heen. Ook als je niet weet wie de reageerder is en hem niet kunt bereiken.

Als site mag je aannemen dat je een licentie krijgt voor gebruik van die reacties, maar dat zal dan altijd in combinatie met het bronartikel zijn. De reacties opnemen in een corpus is dus problematisch, in theorie. Immers, dat is gebruik dat buiten de context van de site valt en dus niet door de reageerder in de licentie is toegestaan.

Soms zie je dat een site een bredere licentie eist, maar die is dan vaak weer beperkt tot enkel de forumbeheerder. Die mag er dan alles mee doen, inclusief op mokken afdrukken of in boeken compileren. In dat geval zou de forumbeheerder aan een onderzoeker kunnen toestaan dat hij de reacties gebruikt. Maar dat moet je dan echt uitzoeken vooraf, want het moet er dan wel expliciet hebben gestaan.

Juridisch gezien kun je zeggen dat wetenschappelijk gebruik eigenlijk niet als concurrerend of oneerlijk gebruik te zien is. Er wordt geen geld verdiend met de reacties, de reacties zelf worden eigenlijk niet eens verspreid. Ze worden -zoals hier- in woorden opgehakt en gebruikt voor bijvoorbeeld sentimentanalyse, detectie van taaltrends en ga zo maar door. Ook voor dergelijk analyseren is formeel toestemming nodig, want onze auteursrecht kent geen algemeen “fair use” recht en in de Auteurswet staat nergens expliciet een wettelijk recht op wetenschappelijk onderzoek naar auteursrechtelijk beschermde werken.

Daar komt bij dat je praktisch gezien zelden tot nooit ziet dat reageerders hier een punt van maken. Vaak zijn ze niet bekend, of willen ze niet zichzelf associëren met die opmerkingen. Bij een rechtszaak zou je jezelf bekend moeten maken immers. Plus, er is geen cent te halen want welke vergoeding had je kunnen vragen om je reactie te mogen gebruiken? Daar wordt alleen de advocaat rijker van dus.

Kortom het mag niet maar ik zie praktisch eigenlijk geen bezwaar om het te doen.

Arnoud

20 reacties

    1. Dat was ook mijn gedachte. Alleen zien ze bij wetenschappelijke publicaties graag dat het reproduceerbaar is. En dan wil je de data dus wel beschikbaar hebben. Alhoewel ik mij afvraag of het delen van de data enkel met een peer reviewer wel een openbaar making is.

      En de recalcitrant in mij denkt: als iemand toch moeilijk doet, voer je je onderzoek in de VS uit en heb je nergens last van. Verschillen in auteursrecht werken gewoon niet op internationaal opvraagbare pagina’s. In feite geldt op het internet de zwakste bescherming. Kijk bijvoorbeeld naar project Gutenberg. Op de site in Australië zijn werken verkrijgbaar die elders nog auteursrechtelijk beschermd zijn.

      De site in de VS blokkeert duitsers omdat de Duitse rechter heeft bepaald dat de duitse wet van toepassing is op de Amerikaanse website. Maar om maar even te bewijzen dat dat nutteloos is op het internet: via een proxy in Duitsland kan ik inderdaad de site niet op, via een proxy in de VS kan ik overal bij komen. En zonder proxy kan ik uiteraard ook overal bij.

      En in de Duitste rechtzaak verklaarde het project logs max 2 maanden te bewaren, dus tegen de tijd dat iemand in de EU actie wil ondernemen zijn die logs al weg.

      1. Wat bedoel je in het geval van het onderwerp in de vraagstelling met “het moet reproduceerbaar zijn”? Want ik snap best dat als je bijv. een nieuwe medicijn ontwikkelt voor wetenschappelijk onderzoek, dat je alles moet noteren zodat er bij een review kan worden nagelopen hoe de vork in de steel zit, of de juiste hoeveelheden gebruikt zijn, etc. Maar als iemand schrijft ‘ik kan me laptop niet vinden’ en jij gebruikt dat om aan te tonen dat mensen steeds meer het woord ‘me’ gebruiken, dan is het toch al reproduceerbaar omdat iedereen het woord ‘me’ kan schrijven? En zo geldt dat voor ieder woord: zelfs als ik nu een nieuw woord verzin, bijv. ‘ashjsdhs’, dan nog kan iedereen het woord reproduceren door dezelfde letters achter elkaar te plakken. Dus de data is al beschikbaar want letters zijn letters (tenzij ik natuurlijk patent aanvraag op dat woord, maar dat lijkt me wel héél ver gezocht en ik vraag me af of dat wel zou kunnen ;-)).

          1. Twitter is erg streng op herpublicatie van data sets met Tweets daarin. Een manier om hier omheen te werken is door een downloadscript aan te bieden. Het uitvoeren van het script genereert de data set.

            Voor het aanmaken van de data set volg ik zelf de robots.txt van de website. Worden zoekmachines toegestaan, dan ook mijn crawler. In plaats van een index, bouw je dan een model, dat is echter een technisch verschil, niet een fundamenteel verschil.

      1. Inderdaad. Persoonlijk heb ik er dan ook geen problemen mee als iemand mijn teksten wil gebruiken voor wetenschappelijk onderzoek. Overigens, als er persoonsgegevens bij komen, dan vind ik het nog geen ramp maar dan wil ik wél weten welke teksten de persoon in kwestie wil gaan gebruiken…

      2. Dat zijn persoonsgegevens. Dat betreft immers alles dat iets over een individu zegt en tot een individu is te herleiden, anoniem of niet anoniem, rechtstreeks of onrechtstreeks. Het lijkt me heel erg lastig om teksten écht onomkeerbaar, onherleidbaar anoniem te maken. Zeker als de bron openbaar was en er daar rechtstreeks identificerende informatie bij stond.

  1. In hoeverre wijkt het voorgestane gebruik af van “lezen” en daarna interpreteren ? Wordt er wel geciteerd ? Is de interpretatie nog te herleiden tot de bron ? Is het voor een onderzoek naar taal wel nodig dat de bron als persoon bekend is ? En heeft die bron er dan op enige manier mogelijk last van ? Voor persoonsgegevens is een construct bedacht dat de belanghebbende moet beschermen. Daar waar de bescherming helemaal geen nut heeft omdat er geen “last” is, slaat de theorie mijns inziens te vaak door.

  2. Het lijkt me dat als je de analyse naar stijlontwikkelingen in de taal online kan doen, dat wil zeggen teksten worden bijvoorbeeld in je browser met wat Javascript per stuk geanalyseerd/gecategoriseerd terwijl de teksten verder niet zelf worden opgeslagen (je kan dan geen voorbeelden meer geven), je dan niets met de auteurswet te maken hebt. Voor het auteursrechtelijk criterium verveelvoudiging lijkt mij leidend of er kenmerkende (dus beschermde) trekken van het origineel worden overgenomen en dat is dan niet het geval. Als ik een forum bezoek mag ik de teksten downloaden (dat is inherent aan ‘bekijken in je browser’), lezen en interpreteren. Een taalkundige analyse erop loslaten is toch niet anders?

  3. Je noemt precies een probleem dat ik heb met schade vergoedingen in Nederland rond bv auteursrecht en privacy. De schade moet je hard maken terwijl bepaalde “basis” schade voor mijn gevoel ook aannemelijk is. Denk aan vaste bedragen per privacy schending of een vaste vergoeding voor het ontvangen van spam als je de verzender kunt aanspreken. De bedragen hoeven niet hoog te zijn als de procedures om de vergoeding te krijgen ook simpel en goedkoop zijn.

  4. Voor het geval de vraagsteller meeleest:

    Ik vind het hele basisconcept wetenschappelijk dubieus: Trends in taal proberen af te leiden uit forumreacties…. Waarom?

    1) Mettertijd is de leeftijd/sociale klasse/opleiding van de reageerders veranderd, en dat zal nog wel even doorgaan. Het is welbekend dat deze factoren invloed hebben op de stijl. Iedere ontwikkeling die je meent te observeren moet je compenseren voor die verandering van de gemiddelde reageerder, en dat kun je niet, want die data heb je niet.

    2) Mensen zijn laks, veel lakser dan ze normaal zouden zijn, mbt het gebruik van jargon en anglicismen (‘ik kan niet wachten’) op forums, en ik vraag me af of de mate van laksheid constant is in de tijd.

    3) Mensen zijn veel minder dan gebruikelijk alert op taalfouten. (‘ik kon niet naar de winkel want me man had me fiets meegenomen). Bovendien is de weerstand die komt vanuit de andere gebruikers van een forum tegen taalfouten veranderd in de tijd.

    4) Je weet niet wie er posten. Het kunnen ook expats zijn die al dertig jaar niet in NL hebben gewoond, of tweede-of-derde talers, of Vlamingen die sowieso andere stijlkenmerken in het Nederlands gebruiken.

    Kortom: taalgebruik op fora is niet representatief voor taalgebruik in het algemeen. Men klooit maar wat aan op fora.

    1. 3) Mensen zijn veel minder dan gebruikelijk alert op taalfouten. (‘ik kon niet naar de winkel want me man had me fiets meegenomen).

      Dat is geen taalfout, maar informele spreektaal die is opgeschreven. Een ander register. Me leven lang al. Vind ik. Me leven lang al.

  5. Ja, lekker, daar kom je natuurlijk altijd mee weg… een ander register, dat in een voor dat register ingebruikelijke situatie, wordt toegepast.

    Dan bestaat er geen taalfout meer. ‘Ja sorry meester, ik heb me gewoon van register vergist bij mijn opstel. Sterker nog, ik heb dat bewust gedaan om de nazipraktijken van de taalpolitie aan de kaak te stellen. Durf mij eens een onvoldoende te geven’

    Is taalfouten voorkomen ook niet een kwestie van het gebruikelijke register toepassen?

  6. Even helemaal terug.

    Het auteursrecht is het uit­sluitend recht van de maker van een werk van letterkunde, wetenschap of kunst, of van diens rechtverkrijgenden, om dit openbaar te maken en te verveelvoudigen, behoudens de beperkingen, bij de wet gesteld

    Dergelijk onderzoek is toch geen openbaarmaking of verveelvoudiging? Er worden hooguit trends gevonden en aggregaties gemaakt.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.