Mag je reacties gebruiken voor wetenschappelijk onderzoek?

Geplaatst op 24 april 201818 april 2018 in Intellectuele rechten, 20 reacties

Een lezer vroeg me:

Ik wil wetenschappelijk onderzoek doen naar stijlontwikkelingen in de taal, en wil daarvoor onder meer reacties van diverse grote forums gebruiken. De beheerders geven aan dat dat niet mag vanwege auteursrecht, maar zit er wel auteursrecht op de vaak korte en simpele reacties die je overal vindt? En is er geen uitzondering voor wetenschappelijke studie?

Auteursrechtelijk is het vrij simpel, als er een “eigen intellectuele prestatie” is geleverd dan zit er auteursrecht op de reactie. Een enkele “+1” of dergelijke opmerking is dus vrij, maar een zin of twee komt al door die toets heen. Ook als je niet weet wie de reageerder is en hem niet kunt bereiken.

Als site mag je aannemen dat je een licentie krijgt voor gebruik van die reacties, maar dat zal dan altijd in combinatie met het bronartikel zijn. De reacties opnemen in een corpus is dus problematisch, in theorie. Immers, dat is gebruik dat buiten de context van de site valt en dus niet door de reageerder in de licentie is toegestaan.

Soms zie je dat een site een bredere licentie eist, maar die is dan vaak weer beperkt tot enkel de forumbeheerder. Die mag er dan alles mee doen, inclusief op mokken afdrukken of in boeken compileren. In dat geval zou de forumbeheerder aan een onderzoeker kunnen toestaan dat hij de reacties gebruikt. Maar dat moet je dan echt uitzoeken vooraf, want het moet er dan wel expliciet hebben gestaan.

Juridisch gezien kun je zeggen dat wetenschappelijk gebruik eigenlijk niet als concurrerend of oneerlijk gebruik te zien is. Er wordt geen geld verdiend met de reacties, de reacties zelf worden eigenlijk niet eens verspreid. Ze worden -zoals hier- in woorden opgehakt en gebruikt voor bijvoorbeeld sentimentanalyse, detectie van taaltrends en ga zo maar door. Ook voor dergelijk analyseren is formeel toestemming nodig, want onze auteursrecht kent geen algemeen “fair use” recht en in de Auteurswet staat nergens expliciet een wettelijk recht op wetenschappelijk onderzoek naar auteursrechtelijk beschermde werken.

Daar komt bij dat je praktisch gezien zelden tot nooit ziet dat reageerders hier een punt van maken. Vaak zijn ze niet bekend, of willen ze niet zichzelf associëren met die opmerkingen. Bij een rechtszaak zou je jezelf bekend moeten maken immers. Plus, er is geen cent te halen want welke vergoeding had je kunnen vragen om je reactie te mogen gebruiken? Daar wordt alleen de advocaat rijker van dus.

Kortom het mag niet maar ik zie praktisch eigenlijk geen bezwaar om het te doen.

Arnoud

20 reacties

NP schreef:

24 april 2018 om 08:34

Je mag toch voor eigen gebruik of studie een kopie van de data maken? Enige probleem is dan dat je niet de volledige dataset mag publiceren maar losse comments vallen prima onder het citaat recht lijkt me?

Beantwoorden

Nuttige reactie, +1! (4)
1. Lukas schreef:
  
  24 april 2018 om 09:33
  
  Dat was ook mijn eerste gedachte… als je de reacties als citaat gebruikt in context van taalontwikkeling dan lijkt dat me dat wel toegestaan?
  
  Beantwoorden
  
  Nuttige reactie, +1! (1)
2. Elroy schreef:
  
  24 april 2018 om 10:25
  
  Dat was ook mijn gedachte. Alleen zien ze bij wetenschappelijke publicaties graag dat het reproduceerbaar is. En dan wil je de data dus wel beschikbaar hebben. Alhoewel ik mij afvraag of het delen van de data enkel met een peer reviewer wel een openbaar making is.
  
  En de recalcitrant in mij denkt: als iemand toch moeilijk doet, voer je je onderzoek in de VS uit en heb je nergens last van. Verschillen in auteursrecht werken gewoon niet op internationaal opvraagbare pagina’s. In feite geldt op het internet de zwakste bescherming. Kijk bijvoorbeeld naar project Gutenberg. Op de site in Australië zijn werken verkrijgbaar die elders nog auteursrechtelijk beschermd zijn.
  
  De site in de VS blokkeert duitsers omdat de Duitse rechter heeft bepaald dat de duitse wet van toepassing is op de Amerikaanse website. Maar om maar even te bewijzen dat dat nutteloos is op het internet: via een proxy in Duitsland kan ik inderdaad de site niet op, via een proxy in de VS kan ik overal bij komen. En zonder proxy kan ik uiteraard ook overal bij.
  
  En in de Duitste rechtzaak verklaarde het project logs max 2 maanden te bewaren, dus tegen de tijd dat iemand in de EU actie wil ondernemen zijn die logs al weg.
  
  Beantwoorden
  
  Nuttige reactie, +1! (2)
  1. Heimen Stoffels schreef:
    
    24 april 2018 om 14:03
    
    Wat bedoel je in het geval van het onderwerp in de vraagstelling met “het moet reproduceerbaar zijn”? Want ik snap best dat als je bijv. een nieuwe medicijn ontwikkelt voor wetenschappelijk onderzoek, dat je alles moet noteren zodat er bij een review kan worden nagelopen hoe de vork in de steel zit, of de juiste hoeveelheden gebruikt zijn, etc. Maar als iemand schrijft ‘ik kan me laptop niet vinden’ en jij gebruikt dat om aan te tonen dat mensen steeds meer het woord ‘me’ gebruiken, dan is het toch al reproduceerbaar omdat iedereen het woord ‘me’ kan schrijven? En zo geldt dat voor ieder woord: zelfs als ik nu een nieuw woord verzin, bijv. ‘ashjsdhs’, dan nog kan iedereen het woord reproduceren door dezelfde letters achter elkaar te plakken. Dus de data is al beschikbaar want letters zijn letters (tenzij ik natuurlijk patent aanvraag op dat woord, maar dat lijkt me wel héél ver gezocht en ik vraag me af of dat wel zou kunnen ;-)).
    
    Beantwoorden
    
    Nuttige reactie, +1!
    1. Arnoud Engelfriet schreef:
      
      24 april 2018 om 14:18
      
      De reproduceerbaarheid zou dan zitten in het aantonen dát het woord “me” steeds vaker bezittelijk wordt gebruikt. Je kunt wel van alles roepen als onderzoeker, maar zonder je dataset blijft het bij een mening en is het geen wetenschappelijk onderzoek.
      
      Beantwoorden
      
      Nuttige reactie, +1! (2)
      1. Thorvald schreef:
        
        25 april 2018 om 22:04
        
        Twitter is erg streng op herpublicatie van data sets met Tweets daarin. Een manier om hier omheen te werken is door een downloadscript aan te bieden. Het uitvoeren van het script genereert de data set.
        
        Voor het aanmaken van de data set volg ik zelf de robots.txt van de website. Worden zoekmachines toegestaan, dan ook mijn crawler. In plaats van een index, bouw je dan een model, dat is echter een technisch verschil, niet een fundamenteel verschil.
        
        Beantwoorden
        
        Nuttige reactie, +1!
Sanne de Vries schreef:

24 april 2018 om 09:21

En AVG-aspecten? Dat het openbaar toegankelijke data is, wil toch nog niet zeggen dat je deze persoonsgegevens vrijelijk kunt gebruiken?

Beantwoorden

Nuttige reactie, +1!
1. Alex Haan schreef:
  
  24 april 2018 om 12:51
  
  Voor de taalanalyse van dit onderzoek heb je de persoonsgegevens natuurlijk niet nodig, alleen de teksten. Daar gaat de vraag dus ook over.
  
  Beantwoorden
  
  Nuttige reactie, +1! (1)
  1. Franc schreef:
    
    24 april 2018 om 13:33
    
    Maar Alex Haan in deze reactie staat nu toch een persoonsgegeven, jouw naam. En als deze reactie geparsed wordt dan wordt er toch een persoonsgegeven verwerkt? (Dus snel er zijn nog 30 dagen 😉
    
    Beantwoorden
    
    Nuttige reactie, +1!
    1. Heimen Stoffels schreef:
      
      24 april 2018 om 13:47
      
      Ten eerste weet je niet of het zijn echte naam is en ten tweede kun je de inhoud nog steeds verwerken zonder de naam van de reageerder erbij 😉
      
      Beantwoorden
      
      Nuttige reactie, +1!
  2. Heimen Stoffels schreef:
    
    24 april 2018 om 13:46
    
    Inderdaad. Persoonlijk heb ik er dan ook geen problemen mee als iemand mijn teksten wil gebruiken voor wetenschappelijk onderzoek. Overigens, als er persoonsgegevens bij komen, dan vind ik het nog geen ramp maar dan wil ik wél weten welke teksten de persoon in kwestie wil gaan gebruiken…
    
    Beantwoorden
    
    Nuttige reactie, +1!
  3. Sanne de Vries schreef:
    
    24 april 2018 om 18:55
    
    Dat zijn persoonsgegevens. Dat betreft immers alles dat iets over een individu zegt en tot een individu is te herleiden, anoniem of niet anoniem, rechtstreeks of onrechtstreeks. Het lijkt me heel erg lastig om teksten écht onomkeerbaar, onherleidbaar anoniem te maken. Zeker als de bron openbaar was en er daar rechtstreeks identificerende informatie bij stond.
    
    Beantwoorden
    
    Nuttige reactie, +1!
HansD schreef:

24 april 2018 om 09:31

In hoeverre wijkt het voorgestane gebruik af van “lezen” en daarna interpreteren ? Wordt er wel geciteerd ? Is de interpretatie nog te herleiden tot de bron ? Is het voor een onderzoek naar taal wel nodig dat de bron als persoon bekend is ? En heeft die bron er dan op enige manier mogelijk last van ? Voor persoonsgegevens is een construct bedacht dat de belanghebbende moet beschermen. Daar waar de bescherming helemaal geen nut heeft omdat er geen “last” is, slaat de theorie mijns inziens te vaak door.

Beantwoorden

Nuttige reactie, +1!
Jeroen Boschma schreef:

24 april 2018 om 09:55

Het lijkt me dat als je de analyse naar stijlontwikkelingen in de taal online kan doen, dat wil zeggen teksten worden bijvoorbeeld in je browser met wat Javascript per stuk geanalyseerd/gecategoriseerd terwijl de teksten verder niet zelf worden opgeslagen (je kan dan geen voorbeelden meer geven), je dan niets met de auteurswet te maken hebt. Voor het auteursrechtelijk criterium verveelvoudiging lijkt mij leidend of er kenmerkende (dus beschermde) trekken van het origineel worden overgenomen en dat is dan niet het geval. Als ik een forum bezoek mag ik de teksten downloaden (dat is inherent aan ‘bekijken in je browser’), lezen en interpreteren. Een taalkundige analyse erop loslaten is toch niet anders?

Beantwoorden

Nuttige reactie, +1!
Mark schreef:

24 april 2018 om 10:51

Je noemt precies een probleem dat ik heb met schade vergoedingen in Nederland rond bv auteursrecht en privacy. De schade moet je hard maken terwijl bepaalde “basis” schade voor mijn gevoel ook aannemelijk is. Denk aan vaste bedragen per privacy schending of een vaste vergoeding voor het ontvangen van spam als je de verzender kunt aanspreken. De bedragen hoeven niet hoog te zijn als de procedures om de vergoeding te krijgen ook simpel en goedkoop zijn.

Beantwoorden

Nuttige reactie, +1!
cg schreef:

24 april 2018 om 12:03

Voor het geval de vraagsteller meeleest:

Ik vind het hele basisconcept wetenschappelijk dubieus: Trends in taal proberen af te leiden uit forumreacties…. Waarom?

1) Mettertijd is de leeftijd/sociale klasse/opleiding van de reageerders veranderd, en dat zal nog wel even doorgaan. Het is welbekend dat deze factoren invloed hebben op de stijl. Iedere ontwikkeling die je meent te observeren moet je compenseren voor die verandering van de gemiddelde reageerder, en dat kun je niet, want die data heb je niet.

2) Mensen zijn laks, veel lakser dan ze normaal zouden zijn, mbt het gebruik van jargon en anglicismen (‘ik kan niet wachten’) op forums, en ik vraag me af of de mate van laksheid constant is in de tijd.

3) Mensen zijn veel minder dan gebruikelijk alert op taalfouten. (‘ik kon niet naar de winkel want me man had me fiets meegenomen). Bovendien is de weerstand die komt vanuit de andere gebruikers van een forum tegen taalfouten veranderd in de tijd.

4) Je weet niet wie er posten. Het kunnen ook expats zijn die al dertig jaar niet in NL hebben gewoond, of tweede-of-derde talers, of Vlamingen die sowieso andere stijlkenmerken in het Nederlands gebruiken.

Kortom: taalgebruik op fora is niet representatief voor taalgebruik in het algemeen. Men klooit maar wat aan op fora.

Beantwoorden

Nuttige reactie, +1!
1. Ruud Harmsen schreef:
  
  24 april 2018 om 12:24
  
  3) Mensen zijn veel minder dan gebruikelijk alert op taalfouten. (‘ik kon niet naar de winkel want me man had me fiets meegenomen).
  
  Dat is geen taalfout, maar informele spreektaal die is opgeschreven. Een ander register. Me leven lang al. Vind ik. Me leven lang al.
  
  Beantwoorden
  
  Nuttige reactie, +1!
  1. Heimen Stoffels schreef:
    
    24 april 2018 om 13:52
    
    Nee en ja. Nee, het is geen taalfout als je het opvat als informele spreektaal. Ja, het is wel een taalfout als je uitgaat van (formele) schrijftaal.
    
    Beantwoorden
    
    Nuttige reactie, +1!
cg schreef:

24 april 2018 om 13:38

Ja, lekker, daar kom je natuurlijk altijd mee weg… een ander register, dat in een voor dat register ingebruikelijke situatie, wordt toegepast.

Dan bestaat er geen taalfout meer. ‘Ja sorry meester, ik heb me gewoon van register vergist bij mijn opstel. Sterker nog, ik heb dat bewust gedaan om de nazipraktijken van de taalpolitie aan de kaak te stellen. Durf mij eens een onvoldoende te geven’

Is taalfouten voorkomen ook niet een kwestie van het gebruikelijke register toepassen?

Beantwoorden

Nuttige reactie, +1!
Richard schreef:

24 april 2018 om 23:30

Even helemaal terug.

Het auteursrecht is het uitsluitend recht van de maker van een werk van letterkunde, wetenschap of kunst, of van diens rechtverkrijgenden, om dit openbaar te maken en te verveelvoudigen, behoudens de beperkingen, bij de wet gesteld

Dergelijk onderzoek is toch geen openbaarmaking of verveelvoudiging? Er worden hooguit trends gevonden en aggregaties gemaakt.

Beantwoorden

Nuttige reactie, +1! (1)

20 reacties

Geef een reactie Reactie annuleren