Overheden verzamelen op grote schaal tweets zonder gebruikers te informeren

OpenClipart-Vectors / Pixabay

Overheidsinstanties zoals het ministerie van sociale zaken, de Belastingdienst en de Nederlandse Voedsel- en Warenautoriteit (NVWA) verzamelen op grote schaal tweets over onder andere hun beleid zonder Twittergebruikers hierover te informeren. Dat meldde Security.nl onlangs op gezag van onderzoek door AG Connect en Trouw. Het gaat om sentimentanalyse, data-analyse waarbij bakken met tweets zeg maar als “positief” of “negatief” worden gelabeld zodat je kunt zien hoe je beleid valt bij de mensen. Ook hier heerst dus die misvatting dat dat mag omdat Twitter openbaar is. Kunnen we eens ophouden met “ja maar openbare bron” als argument?

Het idee achter sentimentanalyse is dat je op basis van grote datasets de werkelijkheid kunt meten, en dat dat een stuk goedkoper/makkelijker is dan steeds een enquête eruit doen of 1200 Nederlands bellen. Waar zeker wat in zit, en we hebben ook genoeg tools (zoals van Microsoft) die op basis van statistische tekstanalyse kunnen zeggen of een tweet over een onderwerp gaat en daar dan positief of negatief over is. Dat kun je dan over de tijd meten, groeperen naar locatie van gebruikers (Randstad versus de provincie, bijvoorbeeld), groei of daling signaleren en ga zo maar door.

Punt is natuurlijk wel, dat begint allemaal bij een enorme verzameling berichten van Twitter. En tweets (met Twitternaam) zijn nu eenmaal persoonsgegevens en dus valt het verzamelen en tot sentimenten omturnen van die gegevens onder de AVG. Mag dat? Ja, in principe wel: dit is een vorm van wetenschappelijk en statistisch onderzoek en dat kun je binnen de grondslag van het gerechtvaardigd belang (art. 6 lid 1 sub f AVG) prima rechtvaardigen. (Ook bij overheden, omdat dit niet gaat om uitoefening van een publiekrechtelijke taak.) Toestemming van de twitteraars is dus niet nodig.

Wat wél nodig is, is dat mensen worden geïnformeerd over dit verdere gebruik. Dat staat gewoon in de AVG, en is iets dat altijd moet bij data harvesting. Ik geef toe dat dit bij een klantanalyse wat makkelijker is, daar zet je het in je privacyverklaring of je stuurt een update in het portaal. Bij dit soort gebruik van Twitterdata is er maar één manier en dat is iedereen een tweet sturen (DM’s sturen kan niet altijd). Daar zouden we gek van worden als iedereen dat deed, maar dat is voor een individuele organisatie niet disproportioneel of onmogelijk. (Bij data-verzameling met een drone of sensoren op straat is het natuurlijk een ander verhaal qua complexiteit, dus dan is een bordje of banner genoeg.)

Ik zie in de reacties her en der boosheid met het argument “kom op, Twitter is openbaar en iedereen doet het”. Dat laatste is vast waar, maar verandert niets aan het punt dat de makkelijke toegankelijkheid van de bron géén argument is onder de AVG. Je bent niet vogelvrij omdat men kan scrapen zonder ingewikkelde contracten of toelatingsprocedure. En vanuit juridisch perspectief zou dat ook heel raar zijn, dat het legaal is om iets te doen omdat het heel makkelijk is, en dat alleen bij moeilijk scrapen je mensen zou moeten gaan informeren of zo?

Arnoud

 

Schenden van de gebruiksvoorwaarden van een site is toch geen computervredebreuk

Het schenden van de gebruiksvoorwaarden van een site is toch geen computervredebreuk, las ik bij Ars Technica. Een federale rechter in Washington, DC heeft geoordeeld dat de strenge Amerikaanse Wet Computercriminaliteit (Computer Fraud and Abuse Act) niet van toepassing is enkel omdat iemand op een site actief is in strijd met de gebruiksvoorwaarden. Dat zal enige rust geven bij veel onderzoekers, want in de literatuur werd vaak gedacht van wel: je bent dan immers ergens waar je niet mag zijn, en dat zou naar de letter van de wet al computervredebreuk zijn. Maar de rechter wijst erop dat je dan private partijen de strafwet laat schrijven, en dat is natuurlijk niet de bedoeling.

De zaak was aangespannen door onderzoekers die raciale discriminatie wilden vaststellen op banenzoeksites. Daarvoor moeten ze data scrapen van die sites, iets dat in de voorwaarden natuurlijk verboden is. Ook wilden ze nepprofielen aanmaken, en ook dat is tegen de voorwaarden. Hun zorg was niet dat ze dan een schadeclaim zouden krijgen (wat in theorie kan, mits de schade aan te tonen is) maar vooral dat de sites dan de FBI op ze los zouden laten wegens computervredebreuk.

De CFAA verbiedt namelijk ” intentionally accessing a computer without authorization or in excess of authorization”, waarbij onduidelijk is wat “authorization” dan precies is. De gedachte dat dat is wat men toestaat in de gebruiksvoorwaarden is geen gekke; op iemands privé-eigendom mag je doen wat die je toestaat en niet meer, dus dat zou ook bij computers gelden. Dat maakt het wel heel makkelijk voor site-eigenaren om ongewenst gedrag af te schrikken: formuleer een verbod en bel de FBI (het is een federale wet immers) wanneer iemand het toch doet.

Met name bij onderzoekers in securitygebied gaf dit veel zorgen, maar ook in andere gebieden zoals hier onderzoek naar gedrag van grote sites is dit een punt van zorg. Daarom de rechtszaak, die overigens mede ingestoken was op het First Amendment want als onderzoeker niet mogen zoeken in openbare data is toch wel een ernstige inbreuk op je informatievrijheid – ook het vergaren van informatie valt onder dit recht, namelijk. Ook bij ons.

De rechtbank heeft dat echter niet nodig, en concludeert simpelweg dat het niet de bedoeling is dat website-eigenaren zelf stukjes strafwet mogen schrijven:

Under such circumstances, the CFAA’s prohibition on “access[ing] a computer without authorization,” even though phrased “in the form of a general prohibition” that can often escape nondelegation worries, see Silverman v. Barry, 845 F.2d 1072, 1086 (D.C. Cir. 1988), becomes unworkable and standardless. Criminalizing termsof-service violations risks turning each website into its own criminal jurisdiction and each webmaster into his own legislature. Such an arrangement, wherein each website’s terms of service “is a law unto itself,” Emp’t Div., Dep’t of Human Res. of Or. v. Smith, 494 U.S. 872, 890 (1990), would raise serious problems. This concern, then, supports a narrow interpretation of the CFAA.

Dit is niet de eerste uitspraak langs deze lijn. Ars Technica citeert een 3-2 uitkomst van zaken die voor en tegen dit argument aanliepen. Dat betekent dat het naar de Supreme Court moet om een definitieve uitspraak te krijgen, iets dat nog wel even zal duren.

In Nederland zou ik overigens eveneens niet verwachten dat iemand wordt vervolgd enkel omdat de voorwaarden iets verbieden. Als je er ‘gewoon’ bij kunt komen, dan is het civiel onrechtmatig maar daarmee nog lang niet strafbaar. Data scrapen waar je zonder exploits bij kunt, is daarvan een voorbeeld. Idem voor een nepprofiel. Pas als wat je doet sowieso al strafbaar is (een nepprofiel ten behoeve van identiteitsfraude of oplichting bijvoorbeeld) dan krijg je het OM achter je aan.

Arnoud

Is scrapen van een website computervredebreuk?

sale-afgeprijsd-uitverkoop.pngEen lezer vroeg me:

Is scrapen van een website computervredebreuk? Er wordt immers iets gedaan met het systeem waar geen toestemming voor is.

Bij scrapen wordt kort gezegd alle informatie van een website opgehaald met een geautomatiseerd proces. Vaak is dat bedoeld voor metazoekmachines zoals prijsvergelijkers, die overal de prijs vandaan halen om de beste match te kunnen tonen. Maar gescrapete informatie kan natuurlijk voor allerlei doelen worden gebruikt.

Over scrapen is juridisch veel te doen. Bronwebsites vinden het vaak niet leuk, en proberen er met gebruiksvoorwaarden, auteursrecht of databankrecht wat tegen te doen. In 2015 won Ryanair nog een zaak tegen een scrapende prijsvergelijker. Het Hof van Justitie bepaalde toen dat Ryanair in principe in haar voorwaarden scrapen mag verbieden. Een scraper mag dat dan niet doen (hoewel nog een open vraag is óf een scraper gebonden is aan die voorwaarden).

Die uitspraak is civiel recht, contractenrecht om precies te zijn. Als een scraper in strijd handelt met de voorwaarden, pleegt ze contractbreuk en moet ze de schade vergoeden. Maar dat is juridisch iets heel anders dan strafrecht, waarbij je boetes of celstraf krijgt.

Van het misdrijf computervredebreuk (art. 138ab Strafrecht) is sprake als je opzettelijk en wederrechtelijk binnendringt in een computersysteem. Het is niet vereist dat je een beveiliging kraakt; genoeg is dat je weet dat je niet mag zijn waar je bent.

Echter, bij scrapen kom je nergens waar je niet mag zijn. Je vraagt data op die openbaar en welbewust toegankelijk is gemaakt. Er worden geen URL’s geraden of speciale queries gedraaid die eigenlijk niet de bedoeling zijn. Het gebruik van die data is niet de bedoeling, maar dat gebeurt een stap later. Daarom zie ik dit niet als strafbaar feit.

Arnoud

Mag IFTTT eisen dat je je API aanpast voor hun schraapdienst?

Stel je voor dat je afvoer gaat eisen dat je je dieet aanpast, las ik op de Pinboard blog. Deze verrassende analogie was bedoeld om een recente eis van koppelsite IFTTT (If This Then That) te illustreren. IFTTT had van Pinboard gevraagd naar hun nieuwe platform te migreren zodat het koppelen van diensten nóg makkelijker zou worden (je hóórt de marketingmeelbal). Maar daar hoorden wel een partij zeer eenzijdigde voorwaarden bij. Kan zo’n dienst dat afdwingen bij willekeurige bedrijven, op straffe van verdwijnen uit het IFTTT-aanbod?

Met IFTTT kun je allerlei diensten aan elkaar knopen. Een e-mail krijgen als een RSS-feed een nieuw item heeft, een gefavoriteerde tweet in Evernote opbergen, de foto’s in je Facebookfeed naar Dropbox kopiëren als ze getagd zijn met #bewaren, en ga zo maar door. Er zijn nu bijna 300 kanalenEen erg handige dienst, waar ik zelf ook gebruik van maak.

IFTTT heeft in het begin hard moeten bouwen om dit voor elkaar te krijgen. Want een RSS-feed is relatief makkelijk uit te lezen op een standaardmanier, veel andere diensten zijn een stuk ingewikkelder. Een belangrijk deel van het werk van IFTTT is dan ook te zorgen dat al die koppelstukken blijven werken. Past een site haar API aan, dan moet IFTTT aan de bak zodat alle koppelingen met die API blijven werken.

Dar moet anders, dachten ze bij de koppelstukdienst, en ze besloten het om te draaien: IFTTT heeft een eigen API waarmee deelnemende sites gegevens kunnen aanleveren, zodat IFTTT die via haar kanalen kan koppelen. Een stuk eenvoudiger voor hen, maar zoals de Pinboard-mensen zeggen – dat is wel de omgekeerde wereld, dat jij je dienstverlening moet aanpassen omdat de leverancier van de koppelstukjes dat vraagt.

Juridisch kan ik er geen hard argument tegen bedenken. Dit is gewoon een zakelijke optie die je krijgt als je groot genoeg bent om voor eindgebruikers van significante waarde te zijn. Het doet Pinboard meer pijn dan IFTTT als de bookmarkingdienst niet op de koppeldienst staat, en die macht gebruikt IFTTT. Daar is op zich niets illegaals aan. Je kunt het onaardig vinden, en dat doen ze bij Pinboard ook:

However, cutting out sites that you have supported for years because they refuse to work for free is not very friendly to your oldest and most loyal users. And claiming that it’s the other party’s fault that you’re discontinuing service is a bit of a dick move.

De enige juridische constructie die ik kan bedenken, is het mededingingsrecht. Als een partij een economische machtspositie heeft, dan gaan er andere spelregels gelden. We noemen dit vaak een monopoliepositie, maar dat is te sterk geformuleerd. Het gaat erom dat je macht hebt op de markt, wat bijvoorbeeld blijkt uit het feit dat je de prijsleider bent. Shell is in die positie in de benzinemarkt bijvoorbeeld.

Wie een economische machtspositie bezit, mag die niet misbruiken. Zo werd Microsoft in 2004 gedwongen haar Windows API’s beschikbaar te stellen aan het opensourceproject Samba, omdat een blokkade van die dienst als misbruik werd gezien. Meer algemeen is het al snel misbruik als je concurrenten toegang tot je platform weigert. Je zou dus kunnen stellen dat IFTTT misbruik maakt, omdat haar eisen om toegang te krijgen (zelf al het werk doen én akkoord gaan met een zeer vergaande TOS waarin onder meer exclusiviteit wordt afgedwongen en het eigendom op de koppelsoftware naar IFTTT moet) zo ver gaan dat ze vrijwel neerkomen op weigeren.

De vraag is dan natuurlijk wel of IFTTT zó machtig is dat we het een economische machtspositie vinden. Kan zij zelfstandig bepalen hoe dingen in deze markt moeten werken? Komt ze weg met harde eisen als deze? Zit ‘iedereen’ hier omdat ze vinden dat ze gen keus hebben? Altijd een lastige bij internet. Want op zich kún je vaak naar een andere dienst. Het Google- of Facebookargument: welnee, wij zijn helemaal niet machtig want www.bing.com of www. eh, ja, een Facebook alternatief .com is zo getypt.

Hier ligt het iets anders denk ik: het gaat om macht doordat veel eindgebruikers het een prettige dienst vinden, en die macht wordt bij leveranciers ingezet. Die leveranciers kunnen niet zomaar weg want hun klanten de eindgebruikers worden dan boos. Dus die leveranciers hebben weinig keus. Maar is dat genoeg om he een machtspositie te noemen?

Arnoud

Scrapen mag in de gebruiksvoorwaarden worden verboden, argh

De Nederlandse vergelijkingssite PR Aviation mag geen gegevens scrapen van de website van Ryanair, zodat prijzen automatisch in de vergelijker terechtkomen. Dat meldde Nu.nl gisteren. Het Hof van Justitie bepaalde namelijk dat hoewel de data van Ryanair niet beschermd is, het bedrijf met hun gebruiksvoorwaarden mag verbieden dat mensen deze gegevens gebruiken in prijsoverzichten. Wát een vervelende uitspraak.

Ryanair en PR Aviation hebben al jaren een slepend conflict over of de laatste de prijzen van Ryanair mag opvragen en in haar vergelijker mag opnemen.

Ryanair beriep zich daarbij altijd op haar auteursrecht en databankrecht, maar dat werd eerder door onze Hoge Raad afgewezen: er zit geen auteursrecht of databankrecht op een prijslijst, kom nou. Voor auteursrecht moet je iets creatiefs doen in de tekst, en daar is geen sprake van. En voor een databankrecht moet je investeringen hebben gedaan die specifiek zagen op het maken van de prijslijst, en die zijn er niet. Dat je investeert in je dienstregeling, is irrelevant: dat gaat niet over de lijst zelf.

Als laatste redmiddel had Ryanair ook nog in haar gebruiksvoorwaarden opgenomen dat je niet mocht scrapen. En het Hof van Justitie zegt nu dat dát rechtsgeldig is (in principe), ook al blokkeer je daarmee de rechten die mensen hebben om auteursrechtelijke of databankrechtelijke informatie te gebruiken. Die rechten zijn namelijk niet aan de orde omdat er geen auteursrecht of databankrecht rust op deze data.

Dus, eh, als er auteursrecht op zit dan mag ik citeren en als het een databankrecht is dan mag ik kleine stukjes overnemen voor legitieme doelen, maar als er géén bescherming is dan mag ik niets? Dat lijkt me een beetje raar, dan ga je toch als site met prijzen altijd zeggen, ik heb geen databankrecht, blijf van mijn data?

Welnee joh, zegt het Hof:

Een dergelijk betoog gaat immers voorbij aan het juridische en economische belang dat voor de persoon die heeft geïnvesteerd in het aanleggen van een databank, besloten ligt in de in de lidstaten geharmoniseerde automatische bescherming die verbonden is aan het uit het auteursrecht voortvloeiende uitsluitend recht om de verschillende in artikel 5 van richtlijn 96/9 genoemde handelingen aan zichzelf voor te behouden, en aan het recht om op grond van het recht sui generis de in de artikelen 7, leden 1 en 5, en 8, lid 2, van de richtlijn genoemde handelingen te verbieden.

Oftewel: omdat een databankrecht zo leuk is, gaan bedrijven als Ryanair écht liever investeren in alsnog een databankrecht (met verplicht toelaten dat je gescrapet wordt) dan dat ze nu op hun data blijven zitten en “Blijf met je rotpoten van onze rotprijzen af” in juridische taal roepen. Eh, juist.

Inderdaad, ik vind dit storend. Zoekmachines en prijsvergelijkers hebben een legitieme functie in de maatschappij en behoren prijsinformatie en dergelijke transparant te kunnen maken. Daar moet auteursrecht of databankrecht niet aan in de weg staan, daar zijn die rechten niet voor bedoeld. En oké het Hof laat doorschemeren dat dat niet gaat lukken, maar was het nou écht nodig om te zeggen dat je bij afwezigheid van die rechten een pseudo-recht kunt claimen met een contractuele afspraak? Want je wéét dat iedereen de komende jaren gaat roepen “wij hebben ergens een disclaimer met magniet erin, dus je bent in Ernstige Mate Maatschappelijk Onzorgvuldig en wanprestatie en juridische foei”.

Het enige lichtpuntje is dat er natuurlijk wel een contract moet zijn tussen de site en de scrapende bezoeker. En daarvoor is (zou ik zeggen) wel meer nodig dan dat je ergens een bestandje “gebruiksvoorwaarden” neerzet, zeker als je ongebruikelijke bepalingen opneemt zoals “je mag geen prijzen overnemen”. Dus ik hoop dat de Nederlandse rechter die straks het eindarrest moet wijzen, een duidelijke uitspraak doet wanneer je nu met website-gebruiksvoorwaarden een contract tot stand brengt met je bezoeker.

Arnoud

De strafbaarheid van het omzeilen van een IP-ban

bannedEen ander IP-adres aannemen of een proxy gebruiken om zo een IP-ban op een website te omzeilen is in de VS een strafbaar feit, meldde Ars Technica vorige week. In het eerste vonnis over deze vraag bepaalde de district court in Californië dat een gebande bezoeker dan “intentionally accesses a computer without authorization or exceeds authorized access” en dat is strafbaar als computervredebreuk naar Amerikaans recht. En hoe zit dat in Nederland?

Het bedrijf 3taps haalde periodiek met een scraper data op van de bekende advertentiesite Craigslist. Craigslist reageerde met een ip-ban en een schriftelijk toegangsverbod (cease and desist letter), waarop 3taps andere ip-adressen inzette en proxies gebruikte om zo toch bij de advertentiedata van Craigslist te kunnen. Daarop stapte Craigslist naar de rechter, en die bevestigt nu dat 3taps computervredebreuk had gepleegd. Hoewel Craigslist voor het publiek toegankelijk is, betekent dat niet dat Craigslist niemand mag weren van zijn site. Toestemming kan worden ingetrokken en dan moet je wegblijven. Kom je dan toch terug, dan is dat strafbaar.

In Nederland lijkt me dit niet veel anders te liggen. Ook hier geldt: je mag niet willens en wetens een geautomatiseerd werk gebruiken waarvan je weet dat je daar niet mag zijn – dat is de definitie van computervredebreuk. En toegegeven, dat is discutabel bij publieke URL’s en dergelijke situaties waarin er geen beveiliging omzeild gaat worden. Maar als iemand je specifiek per brief zegt “blijf wég van mijn site” en je IP-adressen blokkeert, dan lijkt het me toch niet zo gek dat we dan spreken van computervredebreuk. In de analogie met huis- en erfvredebreuk is een dergelijke brief óók genoeg. “Tegen de verklaarde wil van de eigenaar zich bevinden op”, heet dat dan.

Het lijkt me alleen vrij onwaarschijnlijk dat Justitie zal gaan vervolgen in zo’n situatie. Het voelt als iets dat je zelf ook prima kunt oplossen met een burgerlijke rechtszaak. Het begaan van een strafbaar feit is ook een onrechtmatige daad, dus je kunt dan een verbod met dwangsom bij de rechter gaan halen. En proxy’t meneer dan toch nog een keer terug, dan kun je de dwangsom incasseren. (Mits je kunt bewijzen dat hij het was, wat bij een proxy wat lastig is.)

Specifiek bij scrapers is schending van het databankrecht ook nog een route. Je kunt dan als site een dwangsom laten zetten op verder scrapen, en je krijgt natuurlijk je vollédige advocaatkosten vergoed. Dit werkt niet altijd: je moet wel een en natuurlijk beschermde databank hebben en schade lijden door de inbreuk.

Weet je niet wie het is, dan is dagvaarden lastiger. En hoewel je dan op een verstekzaak zou kunnen aansturen (die je automatisch wint, niet komen == verliezen immers) heb je dan nog geen mogelijkheid om dat af te dwingen. Dus wat moet je dan?

Arnoud

Ryanair ruziet met ticketwebsites, annuleert tickets

ryanair-scrapen.jpgLuchtvaartmaatschappij Ryanair heeft een hoogoplopend conflict met enkele vliegwebsites meldde Nu.nl gisteren. De sites zouden de ticketprijzen van de site van Ryanair ‘scrapen’ om daarmee leuke aanbiedingen met een minstens zo leuke marge er bovenop te kunnen doen.

De truc is dat een robotje van de vliegwebsites zich aanmeldt op de site van Ryanair, zogenaamd als onschuldige consument op zoek naar een ticket. De actuele prijzen van Ryanair worden zo uitgelezen (die kunnen per dag of zelfs per query veranderen) en met de bovengenoemde leuke marge getoond als speciale aanbieding op de vliegwebsite. Wil een bezoeker daar van die aanbieding gebruik maken, dan meldt het robotje zich weer bij Ryanair om met de gegevens van die bezoeker het ticket te bestellen.

Mag dat zomaar? Het scrapen van andermans site is juridisch nogal tricky. Je krijgt te maken met databankrechten, auteursrechten en geschifte, pardon geschriftenbescherming. Ryanair heeft al een paar jaar geleden een creatieve eigen manier bedacht om aan deze praktijken een einde te maken. Men weigert simpelweg tickets te leveren wanneer zo’n robotje het ticket bestelt namens een klant. Die manier van werken is verboden in de algemene voorwaarden van Ryanair.

Maar waar maakt Ryanair zich zo druk om? Een klant is een klant, zou je zeggen. Vliegwebsite Ebookers.ie verklaart in Silicon Republic dat het Ryanair te doen zou zijn om de extra’s die men naast de goedkope tickets probeert te slijten. Op hotel- en autohuur verdient Ryanair meer dan op de tickets, aldus Ebookers. En omdat anderen ook onder die prijzen gaan zitten, wil Ryanair hen het leven moeilijk maken.

Ryanair heeft aangekondigd te gaan lobbyen voor meer juridische bescherming van prijsinformatie en het via robotjes laten doen van bestellingen. Zucht.

Arnoud

Andermans site scrapen, wanneer mag dat?

Voor Netters, een community voor webbouwers, schreef ik een juridische analyse over scrapen, hergebruik van stukjes content van andermans site.

Scrapen is een vorm van uitbesteden. Een zoekmachine bouwen is veel werk. En dat geldt niet alleen voor algemene zoekmachines zoals Google, maar ook voor speciale zoekmachines voor huizen, auto’s, contactadvertenties en noem maar op. Veel van dat werk zit hem in het verzamelen en onderhouden van de content. Hoe houd je je database up-to-date, wanneer verwijder je een te koop staand huis en bij welke advertenties moet je ingrijpen omdat er iets illegaals wordt verkocht? Erg fijn dus als je al dat gedoe kunt uitbesteden, en jij je alleen bezig hoeft te houden met zoekresultaten tonen – en natuurlijk de advertenties er omheen.

Maar ja, dan moet die advocaat wel een recht in stelling kunnen brengen. Zomaar iets laten verbieden gaat meestal niet. Dus wat valt er juridisch te doen tegen scrapen? Of omgekeerd, wat mag je scrapen van andermans site?

Lees verder in Andermans site scrapen, wanneer mag dat? bij Netters.

Arnoud