‘Ook OpenAI en Anthropic negeren robots.txt-verzoeken om sites niet te scrapen’

Photo by Chuck Underwood on Unsplash

OpenAI en Anthropic negeren verzoeken van websites in robots.txt-bestanden om niet gescrapet te worden. Dat las ik bij Tweakers. Dat is opmerkelijk, want eerder meldde men nog dit wel te gaan doen. De reden is onduidelijk, mogelijk heeft het te maken met het onderscheid tussen “crawlen om AI-trainingsvoer te vinden” en “crawlen om bronnen te vinden waarmee AI-uitvoer ondersteund wordt”.

Dit is dus precies waarom robots.txt niet de oplossing is voor dit probleem. Robots.txt is ooit gemaakt om boteigenaren aan te geven waar de website-eigenaar problemen verwachtte, zoals bij cgi-bin scripts of URL’s met sessieparameters of mappen waar toch niets te halen viel. Dat was handig voor de boteigenaar want dat scheelt netwerkverkeer en rotzooi weggooien.

Hier gaat het niet om elkaar helpen maar om een verbod: je mag deze site/content niet gebruiken voor jouw tekst en datamining. Ook niet als je het voorzichtig doet. Daar zit een juridisch haakje aan, artikel 15o van onze Auteurswet (gebaseerd op Europese regels) zegt dat TDM mag tenzij er een machineleesbare optout is gegeven.

Het probleem: iets is pas machineleesbaar (=zonder menselijke tussenkomst te interpreteren) als daar een standaard voor is. En die is er niet. Dus dan krijg je dat men iets pakt dat er op lijkt, namelijk robots.txt en daar dan doet alsof je een verbód uitspreekt als je zegt “GPTbot disallow *”. Dit werkt om meerdere redenen niet, al is het maar omdat je alleen per bot kunt uitsluiten en niet per soort gebruik (wel voor je zoekmachine, niet voor je dataset).

We hadden in de jaren nul hetzelfde met het Automated Content Access Protocol, dat geen succes werd omdat er geen consensus was dat je dit moest willen. En er zijn diverse pogingen om een “ai.txt”-achtige standaard te zetten, maar die hebben allemaal hetzelfde probleem: waarom zou ik dat ondersteunen? Als ik dat doe, mag ik dingen niet die de concurrent wel mag (want die ondersteunt het niet).

De enige route is dat de wetgever een standaard bindend voorschrijft, dit is hoe jij uitgever het opschrijft en daar ga jij crawlerbaas elke keer verplicht kijken voordat je verder crawlt. Maar het Europese standaardisatieproces duurt jaren. Ik ben dus heel benieuwd hoe hier een standaard geforceerd gaat worden. Een dappere rechter die durft te zeggen “genoeg uitgevers gebruiken formaat X, dat is dan vanaf vandaag maar standaard”.

Arnoud

 

Mag ik met cameratoezicht controleren of de parkeerplek voor mijn deur vrij is als ik aan kom rijden?

Photo by Thatmientay on Pixabay

Een technisch vernuftige kwestie bij Reddit:

Ik heb een camera op de 3 parkeerplekken voor mijn huis hangen met een scriptje die checkt of er een parkeerplek leeg is. Deze camera, in tegenstelling van [mijn] deurbel en tuin camera, neemt niet op maar neemt alleen een snapshot van de huidige situatie, maakt hier een base64 string van en stuurt die naar een (gesloten) API. Mijn overburen hebben hier over geklaagd, en normaal gesproken zou ik er geen twee keer over nadenken en de camera weghalen. Maar zij zijn nou net de reden dat ik dit script heb geschreven aangezien zij de hele dag thuis zitten en zodra de plekken voor ons huis vrij komen meteen de buitenste twee innemen met hun beide auto’s, ondanks dat ze gewoon een oprit hebben.
De achterliggende reden voor dit stukje huisvlijt (link met technische details) is dat de betreffende straat in een breder gebied met eenrichtingsverkeer ligt. Kan de vraagsteller niet bij zijn huis parkeren, dan moet hij een fors stuk doorrijden alvorens weer bij een parkeerplek te komen. Weet hij deze situatie tijdig, dan kan hij ergens in de buurt parkeren.

Maakt dat uit? Jazeker, want bij het maken van beelden in de openbare ruimte kom je bij de AVG uit en die vereist een onderbouwd gerechtvaardigd belang. In deze situatie weten hoe je moet rijden vind ik wel een rechtens te respecteren belang (indirect te linken aan recht op privé-leven, dit is gewoon belangrijk voor veel mensen):

Lange straat met eenrichtingsverkeer en parkeerplekken alleen aan onze kant van de straat. Als ik aankom rijden vraag ik aan me voice assistant of er een plek beschikbaar is zodat ik weet dat ik voor de deur kan parkeren of al eerder een plek moet vinden. Het kan in ons dorp bij mooi weer extreem druk worden. Als ik doorrijdt en er is geen plek voor de deur of verder in de straat, moet ik een aardig stukje omrijden om het nog een keer te proberen.
Natuurlijk moet er van de AVG ook een afweging met de belangen van anderen gemaakt worden. Andere mensen komen in beeld als die foto wordt gemaakt, en zij hebben ook recht op privé-leven als ze gewoon op straat lopen of voor mijn part hun schoenveters strikken op die parkeerplaats.

Hoe weeg je dat tegen elkaar af? Het mooie aan deze oplossing vind ik dat die camera niet de hele dag filmt. Alleen als de vraagsteller een signaal stuurt, neemt de camera een foto die naar de telefoon van de vraagsteller gaat. Die kan dan in de auto beslissen hoe verder te rijden.

Het beeld is na overleg met de buren van hoge resolutie teruggebracht tot een simpel 640×480 pixel beeld, wat we nu postzegelformaat noemen en toen ik jong was “wat mijn monitor maximaal aan kan”. Het beeld wordt verder niet opgeslagen. Ik zie dat als zo’n beperkte inbreuk op de privacy van passanten dat ik de belangenafweging in het voordeel uit vind vallen van de vraagsteller.

Het enige punt dat voor mij overblijft is hoe je voor de buurt duidelijk maakt dat de camera niet de hele dag filmt. Het is nu met de overburen besproken, maar er wonen meer mensen in die straat, om van passanten nog maar niet te spreken. (Het is kennelijk een populaire parkeerplek voor dorpsbezoekers.) Ik kom dan uit bij bijvoorbeeld een lampje dat aan gaat als de foto wordt gemaakt, en een bordje “Filmt niet!” goed zichtbaar bij het ding.

Ik zie in de comments nog discussies over de term ‘sensor’, waarbij kennelijk het zo zou zijn dat sensoren wel de weg mogen bevoelen en camera’s een ander verhaal zijn. Dat klopt juridisch niet. Het criterium is of er persoonsgegevens verwerkt worden – mensen herkenbaar zijn, zeg maar. Of je dat nou doet met warmtebeeld, een MRI scan of een ladinggekoppelde component maakt daarbij helemaal niets uit.

Arnoud

Wat is er juridisch mogelijk tegen nepauteurs en nepartikelen in al dan niet nepjournals?

Photo by Pixabay on Pexels

Academisch publiceren wordt steeds meer bedreigd door onwetenschappelijke krachten, zo opende een artikel over fictieve artikelen en/of auteurs recent. Dergelijke neppublicaties zijn sterk in opkomst, uiteraard dankzij generatieve AI dat wetenschappelijk klinkende tekst per strekkende meter produceert inclusief mooie bronvermeldingen. Is er juridisch wat aan te doen, zo vraagt de auteur zich af.

Nepartikelen en zelfs nepauteurs zijn van alle tijden, moet je dan als jurist zeggen, maar de laatste tijd loopt het wel de spuigaten uit. Bij Retraction Watch las ik zelfs dat drie tijdschriften in de CiteScore top 10 geheel nep zijn:

These journals are filled with automatically generated papers, all using the same template, extensively using buzzwords such as “blockchain,” “metaverse,” “deep learning,” “immersive visualization,” “neuro-engineering technologies,” and “internet of things.” Most papers claim to examine the recently published literature on these topics by “a quantitative literature review of the main databases.” They also claim to analyze initially (always!) between 170 and 180 articles that satisfied the undisclosed “eligibility criteria.”
Of Rian van Rijbroek heeft een nieuwe baan, of hier zijn mensen zeer creatief met ChatGPT aan de slag geweest.

Het onderliggende probleem is dat vrijwel alle waardering voor wetenschappelijke papers automatisch berekend wordt. Het tellen van citations is de bekendste manier. En een tijdschrift lift daar weer op mee: hoe vaker er uit dat tijdschrift wordt geciteerd, hoe beter het wel zal moeten zijn. Dus ja, als je dan steeds je eerdere nepartikelen citeert en nieuwe artikelen rechtstreeks uit de API live zet, dan kom je als tijdschrift al snel in de top 10.

Dit doet pijn, niet alleen door de vervuiling maar ook omdat wetenschappers afgerekend worden op publiceren in de “goede” tijdschriften. Die top 10 van CiteScore is een metric om te bepalen of een tijdschrift “goed” is, en daar staan nu dus nog maar zeven tijdschriften in waar je als mens in zou willen staan.

Nepnieuws dus, om de juridische term te gebruiken. Het probleem is dat nepnieuws an sich niet strafbaar is. Wie goedkoop buzzword-gebrabbel wil publiceren, en dat zelf kan organiseren, moet dat vooral doen. De markt lost dat vanzelf wel op, want wie wil er abonnementen nemen op zo’n tijdschrift?

Ik ben er nog niet helemaal achter wat het businessmodel is hier. Ik denk het verleiden van onoplettende wetenschappers om hier te publiceren – vraag 300 euro “review fee” en publiceer daarna ongezien. Strafbaar is dat niet echt, je krijgt een publicatie dus oplichting is moeilijk hard te maken. Ik zie ook zo snel geen misleidende beloftes zoals dat topresearchers een peer review gaan doen.

Het doet denken aan de oude problematiek van de bedrijfsgidsen, maar daar was de misleiding groter: die vragen of je je gegevens wilt checken en leggen jouw “het klopt” uit als een akkoord op een betaald abonnement van 1500 euro per jaar voor vijf jaar zonder tussentijdse opzegging.

Hier zie ik echt niet meteen een juridisch haakje om tegen deze publicaties op te treden. De enige echte route is die van de Digital Services Act – merk dit aan als een systeemrisico. Alleen zijn de aanbieders van CiteScore en collega’s geen groot platform dat een dergelijke plicht heeft. Dat wringt, want dit ís een systeemrisico. Alleen is er niemand voor verantwoordelijk.

Arnoud

 

Mag je in Nederland liegen bij de burgerlijke rechter?

Photo by Jametlene Reskp on Unsplash

Elon Musk gaat getuigen in een zaak die de Amerikaanse Securities and Exchange Commission tegen hem heeft lopen rond de aankoop van Twitter, las ik bij Tweakers. Los van de inhoud inspireerde het een discussie die ik wel vaker zie: wanneer is liegen bij de rechter verboden (in Nederland) en wat zijn de gevolgen?

De reden voor het onderzoek van de SEC is dat Musk in 2018 tweette dat hij “funding secured” had voor de overname, iets dat niet de waarheid, de gehele waarheid en/of niets dan de waarheid lijkt te zijn. En omdat Twitter toen een  beursgenoteerd bedrijf was, mag de SEC dat dan onderzoeken. Musk werkte eerder mee, maar nadat de SEC vervolgvragen meldde, stapte hij naar de rechter.

Het riep de discussie op: kan Musk gedwongen worden te getuigen als hij onderwerp van onderzoek is? Dat stuit af op het Fifth Amendment, het recht niet tegen jezelf te hoeven getuigen – in strafzaken. Die nuance is belangrijk want de SEC heeft een civiele zaak. In de praktijk betekent dat: je moet komen, je moet blijven zitten en de vragen aanhoren maar bij een specifieke vraag mag je weigeren te antwoorden met een verwijzing naar dat Grondwetsartikel.

In Nederland is kennen wij ook zo’n verschil tussen civiel en bestuursrecht. Als je bij civiel recht (tussen burgers en/of bedrijven) liegt, mag de rechter daar iedere gevolgtrekking uit maken die hij geraden acht (art. 21 Rv). In deze zaak had een partij bijvoorbeeld een vordering mede gebaseerd op een voorlopige aanslag IB (12k) terwijl de werkelijke aanslag IB er al was (300 euro). Dat is liegen en de rechter wijst de hele vordering af. Maar de rechter mag ook bijvoorbeeld mededelen dat omdat jij loog dat A waar is, we vanaf nu handelen onder de aanname dat niet-A de waarheid is.

Als je liegt op papier (ook e-mail e.d.), is dat valsheid in geschrifte en dat kan als strafbaar feit worden vervolgd. Maar als de rechter in de civiele zaak actie ondernam, dan denk ik dat de politie de zaak verder laat liggen.

Je kunt bij een civiele zaak worden gehoord als getuige. Dat gebeurt onder ede, en dan liegen is strafbaar (meineed, art. 207 Strafrecht), net als zwijgen (art. 192 Sr). Overigens zie je in Nederland vaker dat men een schriftelijke getuigenverklaring overlegt dan dat mensen daadwerkelijk langskomen, dit is in de VS wel anders.

De SEC zou bij ons opereren onder het bestuursrecht. Hier kun je ook onder ede worden gehoord als getuige (art. 8:33 lid 4 Awb). Maar als jij wordt verhoord met het oog op het aan jou opleggen van een bestraffende sanctie, mag je wel zwijgen (art. 5:10a Awb). Het hangt er dus vanaf of men jou op de korrel heeft met het onderzoek of dat je toevallig iets relevants weet.

Arnoud

Familie F1-coureur Schumacher ontvangt 200.000 euro wegens AI-interview

De familie van F1-coureur Michael Schumacher ontvangt een vergoeding van 200.000 euro van een Duits tijdschrift. Dat meldde Tweakers vorige week. Het tijdschrift had vorig jaar een nepinterview met de coureur (die ernstig letsel heeft en niemand te woord staat) gepubliceerd dat met AI gegenereerd bleek te zijn.

Meer duiding bij Der Spiegel:

Het tijdschrift ‘Die Aktuelle’, behorend tot mediagroep Funke, publiceerde vorig jaar een tekst die leest alsof er een interview is afgenomen met de ex-coureur. Op de voorpagina werd het nepgesprek aangekondigd als ‘het eerste interview’ van de ‘wereldsensatie’-atleet die verongelukte bij een ernstig ski-ongeluk. De presentatie in de krant leek op een echt interview; pas tegen het einde van het artikel werd erop gewezen dat de antwoorden zogenaamd door een AI waren gegenereerd.
De familie van Schumacher dreigde met juridische stappen. Het mediabedrijf bood daarop publiekelijk excuses aan, drukte een correctie in de krant en ontsloeg de hoofdredacteur.

Ook werd twee ton schadevergoeding betaald, maar niet als gevolg van een rechtszaak – dit bedrag kwam ter sprake in de ontslagzaak van die hoofdredacteur als het schikkingsbedrag dat men dankzij diens wangedrag had moeten betalen. Dat blijkt uit onderzoek van Übermedien. Deze had het ontslag aangevochten en kreeg zowaar gelijk: de maatregel was disproportioneel gezien het hoge aantal dienstjaren, hoewel “serieus de grens [is] overschreden van wat ‘gewoon mogelijk’ is”.

De kwestie lijkt daarmee voor de familie Schumacher opgelost, maar juridisch is het wat onbevredigend: had een rechter dit bedrag ook toegekend, en zo ja op welke juridische grond?

Ik blijf daar moeite mee houden. Smaad is het niet, want er wordt niets negatiefs gezegd over Schumacher. Een verkeerde indruk wekken is niet strafbaar. Met de AVG kun je weinig gezien de persexceptie. Heel misschien oneerlijke handelspraktijken/misleidende reclame omdat de cover dit verhaal wervend inzet (koop dit tijdschrift). Blijft over de restcategorie van maatschappelijk onzorgvuldig, die kan altijd maar het voelt raar dat er geen beter passende wet is.

De AI Act eist dat bij deepfakes (zoals dit artikel) een duidelijke aanduiding staat. Hierop kunnen bestuurlijke boetes worden uitgedeeld, hoewel niet helemaal duidelijk is of dat ook geldt bij perspublicaties – het is onwenselijk dat toezichthouders de vrije pers beboeten met dit soort regels. De AI Act (artikel 50) is hier echter niet duidelijk in, en ook de AI Liability Directive (die nog niet eens is aangenomen) gaat hier niet nader op in.

Arnoud

 

 

Scarlett Johansson beschuldigt OpenAI ervan haar stem te gebruiken voor ChatGPT

Photo by Jason Rosewell on Unsplash

Scarlett Johanson zegt dat OpenAI haar stem zonder toestemming heeft gebruikt als AI-stem voor ChatGPT, las ik bij Tweakers. De betreffende stem, Sky geheten, leek sterk op de stem van Johansson, maar volgens OpenAI was dat niet bewust. Weinigen die dat geloven, want de stem werd vrij snel daarna weggehaald. Onder juridische druk heet dat dan – maar wat zou dat precies moeten zijn?

Het artikel legt uit:

In een verklaring van Johansson, die door journalist Bobby Allyn op sociale media werd gezet, zegt ze dat Altman haar in september vorig jaar had benaderd om de stem van ChatGPT in te spreken. Naar eigen zeggen sloeg zij dat aanbod toen af. Vlak voor de demonstratie zou Altman haar opnieuw hebben benaderd om haar stem in te spreken, maar voordat ze kon antwoorden, was Sky al gedemonstreerd.
Versie 4o van ChatGPT komt met stembediening en -uitvoer, en de stem Sky is er daar een van. Het is een gekloonde stemacteur wiens identiteit niet bekend wordt gemaakt aldus het bedrijf. Op zich kan dat, de technologie om stemsynthese te doen nadat iemand flink wat zinnen inspreekt is niet nieuw. Dat de vrouwen clichématig moesten klinken ook niet, maar dat terzijde.

Wel opmerkelijk is dat een van de gevraagde stemacteurs diezelfde Scarlett Johanson was. Helemaal als je bedenkt dat zij de stem van de AI insprak in de film herwaar OpenAI-directeur Sam Altman bij de lancering van GPT 4o expliciet naar refereerde. Dat elke gelijkenis met echte gebeurtenissen of locaties of personen, levend of dood, geheel toevallig is, wil er bij mij dan niet in.

Na een stevige brief van Johanssons advocaat werd de stem teruggetrokken. Maar voor mij begint het dan pas: welke juridische basis is er om een claim te leggen?

In Californië – waar dit speelt – zijn er iets meer mogelijkheden dan bij ons. Rechters hebben daar diverse malen geoordeeld dat het specifieke feit van “voice misappropriation” onrechtmatig is wanneer 

a distinctive voice of a professional singer is widely known and is deliberately imitated in order to sell a product, the sellers have appropriated What is not theirs and have committed a tort in California.
Het is dan een korte stap van ‘zanger’ naar ‘acteur’, dus die juridische gestalte zie ik wel opdoemen.

Minstens zo interessant is het argument dat hier een audio-deepfake wordt gemaakt van Johanssen. Dat is voor zover ik kan vinden niet strafbaar – alleen video-deepfakes en dan ook nog eens met het motief van beschamen of beschadigen – maar als bewezen zou worden dat OpenAI, al is het impliciet, de stem van Johanssen wilde laten horen dan ben je daar een heel eind.

In Nederland is er ook geen algemeen strafrechtelijk verbod op audio-deepfakes, maar daar hebben we binnenkort wél artikel 50 van de AI Act dat bij het produceren van deepfakes een duidelijke markering vereist. Dat betekent volgens mij dat het er expliciet bij moet staan, je deepfake ‘Sky’ noemen is echt te weinig.

Arnoud

Mag dat eigenlijk wel, generatieve AI zoekresultaten aan elkaar laten praten?

Photo by Mohamed_hassan on Pixabay

Soms wilt u snel antwoord, maar heeft u geen tijd om alle benodigde informatie bij elkaar te zoeken. Search doet het werk voor u met AI Overviews. Met die marketingblaat maakte Google onlangs bekend dat haar zoekdienst AI gaat krijgen: deze verwerkt resultaten tot een mooi klinkend verhaal. Wat leidt tot de juridische vraag, mag dat eigenlijk wel?

Technisch gezien is “AI Overviews” niet meer dan een herziening van het resultaatscherm. In plaats van een lijst met webpagina’s neemt Google de daarop gevonden informatie en laat een genAI systeem daar een verhaaltje van maken. Dat lijkt vooral handig voor een snel overzicht en het opnemen van de informatie.

Er zit echter een fundamenteel verschil met de ouderwetse lijst. Waar die lijst niet meer doet dan suggereren waar je heen kan gaan, met bij wijze van citaat een paar mogelijk relevante frases, geeft dit verhaaltje al direct het antwoord. Doorklikken is daarmee niet meer nodig.

Dit wringt, omdat zoekmachines altijd juist vanwege die quid pro quo van het aanleveren van bezoekers in ruil voor het mogen scrapen van content als soort-van-legaal zijn gezien onder het auteursrecht.

Een genAI-zoekmachine haalt echter die balans onderuit. Wel alle content binnenhalen, maar niet als hoofdregel mensen doorverwijzen. Dat kost de contentaanbieders dus alleen maar, terwijl ze er niets (of veel minder) voor terugkrijgen.

Alleen: dit is vrij ongrijpbaar, juridisch gezien. Er is nooit letterlijk een uitspraak over geweest. We hebben wel zaken zoals het Zoekallehuizen-arrest (huizenadvertenties) gehad, maar daar ging het om het vertonen van stukjes informatie in zoekresultaatpagina’s, niet om het onderliggende scrapen en opbouwen van een databank met heel internet.

Natuurlijk, we hebben ondertussen diverse nieuwe wetten – de AI Act (bijna), de Digital Markets Act, de nodige aanpassingen aan de Auteurswet, enzovoorts. Maar geen daarvan bevat iets waarmee deze transformatie van zoekresultaten aan te pakken is.

Ja, ik ben een tikje cynisch maar sowieso erger ik me al geruime tijd aan de achteruitgang van de ooit bliksemsnelle en verrassend goed werkende zoekmachine. Als ik dan óók nog de bronsites moet gaan vissen uit een mooi klinkend verhaal dan houdt het wel een beetje op hiermee.

Arnoud

 

Wanneer mag ik als ethisch hacker een kwetsbaarheid openbaar maken?

Photo by Austin Chan on Unsplash

Een lezer vroeg me:

Het gebeurt wel eens dat je als ethical hacker een kwetsbaarheid van dusdanige aard ontdekt dat het ernstige maatschappelijke gevolgen zou kunnen hebben als er misbruik van gemaakt wordt. Als ethisch hacker heb ik in principe een geheimhoudingsplicht, en dat wringt hier behoorlijk. Zijn er uitzonderingen waarin dat wel zou mogen of misschien zelfs zou moeten?

Er zijn vele definities van “ethisch hacker”. Een mooie neutrale is die van Wikipedia: een hacker die fouten wil opsporen, om ze vervolgens te melden aan de betreffende, ‘gehackte’ bedrijven of instanties. Die kunnen deze dan herstellen.

Het ethische hieraan is met name dat je zo’n melding in vertrouwen doet, en er geen misbruik van maakt of deze voor eigen gewin exploiteert. Je motivatie is dat het bedrijf het oplost, meer niet.

Een al heel lang bekend probleem bij het melden van fouten of gaten in de beveiliging is dat je melding wordt genegeerd of onder het tapijt wordt geveegd. De oplossing staat bekend als responsible disclosure. Je geeft de organisatie een redelijke termijn om het op te lossen, maar je bent vrij om daarna te publiceren.

Dit werkt echter niet als je een afspraak hebt met de organisatie over geheimhouding. Dat kan zijn omdat je via een betaalde opdracht (zoals een pentest) werd ingehuurd, of omdat je meedeed aan een bug bounty. Als je de bijbehorende voorwaarden accepteert en daar staat geheimhouding in, dan gaat die afspraak boven de normale regels.

Alleen in zéér uitzonderlijke situaties kun je zo’n afspraak doorbreken. Je komt dan op het niveau van noodweer, je kunt als mens in deze maatschappij écht niet anders dan je afspraak tot geheimhouding schenden om dit aan de kaak te stellen. Er is in Nederland geen algemene regel dat je geheimhouding mag negeren als je in een klokkenluidersituatie zit als leverancier.

(Je kúnt natuurlijk een anonieme tip aan het NCSC doen en uitleggen dat je contractueel klem zit, maar of de tip dan opgepakt wordt, weet ik niet. Bovendien is het dan nog steeds jouw probleem als uitkomt dat jij de melding deed.)

Arnoud

 

Autoriteit Persoonsgegevens: bedrijven mogen internet vrijwel nooit scrapen, nou nou nou

Photo by Hans-Peter Gauster on Unsplash

Scrapen van informatie op internet is in vrijwel alle gevallen illegaal, stelt de Autoriteit Persoonsgegevens. Dat meldde Tweakers gisteren. De toezichthouder bracht een ‘handreiking‘ uit over ‘scrapen’ van ‘data’ op ‘internet’, en getuige mijn inbox waren velen onaangenaam getroffen door de strekking.

De basis lijkt me niet controversieel: wie profielen op sociale media en andere dergelijke data binnenharkt, zal gewoonlijk persoonsgegevens verwerken en moet zich dan aan de AVG houden. Dat betekent dus dat je die mensen moet melden dat je hun gegevens binnenhaalt en ze gelegenheid moet geven te protesteren en/of correcties dan wel verwijdering te laten uitvoeren.

De insteek van de AP is echter fundamenteler: het is “bijna altijd illegaal”. Daarmee bedoelen ze “rechtmatig” (art. 5(1)(a) AVG), wat ze dan baseren op drie specifieke problemen:

  • grondslagen en doelbinding
  • bijzondere persoonsgegevens
  • strafrechtelijke persoonsgegevens
Allereerst de grondslag. Als dataharker ben je zelf verwerkingsverantwoordelijke, dus je moet zelf een grondslag kiezen en onderbouwen. (Je kunt niet meefietsen op bijvoorbeeld de grondslag van Linkedin en dan redeneren dat jouw hergebruik daar slechts een variant op is.)

Die grondslag zal vrijwel altijd het “eigen gerechtvaardigd belang” (art. 6(1)(f) AVG) zijn van de partij die de gegevens binnenharkt. En dan komen we bij het eigenlijke punt dat de AP wil maken: een “zuiver commercieel belang” mag niet tellen als “belang” in de zin van de AVG. Daar is inderdaad al de nodige herrie over geweest en de zaak ligt nu voor bij het Hof van Justitie.

De AP stelt zich op het standpunt dat iets alleen als “belang” kan tellen als het tot een wet te herleiden is. En “zuiver commercieel handelen” staat nergens in een wet en dus is het geen belang onder de AVG. Ik heb daar enorme moeite mee, gezien het feit dat artikel 16 Handvest de “vrijheid van ondernemerschap” expliciet erkent. Geld willen verdienen is dus een grondrecht en daarmee een rechtens te respecteren belang. Daarnaast is er de vrijheid van informatie (art. 11 Handvest), die ook toeziet op het binnenharken van informatie. En je oogmerk doet er niet toe; informatievrijheid geldt ook voor bedrijven.

Dat wil natuurlijk niet zeggen dat alles mág als je Eurotekens er achter zet. De belangenafweging van de AVG is nadrukkelijk in het voordeel van de betrokkenen geformuleerd. De handreiking gaat hier niet verder op in, maar adviseert mensen om “zorgvuldig” na te denken wat de afweging moet zijn. Wel noemt men een aantal factoren, zoals omvang van de dataset en op welke criteria deze doorzoekbaar is: een statistisch model met algemene uitspraken is iets heel anders dan een kopie van geheel Nederlands Linkedin waar je op persoonsnaam in zoekt.

Dit haakt in op de twee andere factoren: het is goed mogelijk dat je ook bijzondere persoonsgegevens (zoals etnische afkomst, seksuele voorkeur of religie) meeharkt of zelfs de vaak vergeten strafrechtelijke persoonsgegevens. En dat is echt problematisch, omdat je als harker eigenlijk nooit een legitieme reden hebt om dat te doen.

De AP trekt daarbij een harde lijn, die volgens mij de enige juiste is:

Slaat u zowel gewone als bijzondere persoonsgegevens op in één database, dan is het beschermingsregime voor bijzondere persoonsgegevens van toepassing op alle gegevens in deze database. Kunt u niet uitsluiten dat u (ook) bijzondere persoonsgegevens verwerkt? Dan geldt het (zwaardere) beschermingsregime voor bijzondere persoonsgegevens.
Hierbij geldt dat alleen een actieve handeling van de betrokkene zelf als excuus kan gelden. Een voorbeeld: op Linkedin kun je je voornaamwoorden instellen. Daaruit kun je een seksuele gerichtheid afleiden, wat dus problematisch is maar omdat dit een actieve en bewuste keuze is (je hóeft het niet te doen) valt dat buiten het verbod.

De uitspraak dat het “bijna altijd illegaal” is, is dus vooral gebaseerd op het gegeven dat je bijzondere persoonsgegevens verwerkt en dat je daarbij niet kunt zeggen dat men dit alles zelf openbaar gemaakt heeft. De AP merkt in de handreiking zelf al op dat hier redelijkerwijs vraagtekens bij te stellen zijn en dat alleen het Hof van Justitie die kan beantwoorden. Het is dus wel nogal een aanname die hier wordt genomen.

Een meer algemeen bezwaar is de juistheid. Naast dat je mensen moet informeren dat jij hun gegevens binnenhaalt (ja, dat moet jij doen en wel actief, dus met een mail of pb), moet je mensen gelegenheid geven hun gegevens te corrigeren. Je zal net gehackt zijn en een cryptoscam op je Facebook krijgen op de dag dat zo’n hark langskomt: dan zullen toekomstige werkgevers je nog lang associëren met dubieuze cryptoverkoop.

Ik zie de handreiking alles bij elkaar vooral als een signaal: er is nog héél veel cowboygedrag in dataharkland, en dat moet maar eens afgelopen zijn. Als jij je processen op orde hebt, weet welke data je binnenhaalt en waarom, bijzondere gegevens wegfiltert en zorgt voor transparantie (inclusief rechten uitoefenen), dan is er verder weinig aan de hand. Als.

Leuk detail nog: wie een AI bouwt die op basis van dataharken is getraind, moet in zijn conformiteitsverklaring (Annex V AIA) expliciet verklaren volledig AVG compliant te zijn. Een aansprakelijkheidsbeperking is daarbij niet mogelijk, en onder de binnenkort te verwachten AI Liability Directive geldt zelfs een omgekeerde bewijslast. Inkopers van AI kunnen dus sturen op dit logo.

Arnoud

 

 

Hoe krijg je in Nederland een Amerikaans bedrijf zo ver te luisteren naar de rechter?

Photo by Victor Freitas on Pexels

“Automattic weigerde en stelde dat het vonnis niet op de juiste manier was betekend door eiser en dat de rechtbank niet bevoegd was”, meldde IE-Forum onlangs. De juridische manier om te zeggen “de eigenaar van blogplatform WordPress deed moeilijk toen de rechter zei dat een blog weg moest”. Wat was hier aan de hand?

De kern van de zaak was simpel genoeg. Een meneer werd stevig bedreigd, en een blog gehost bij WordPress was daarbij een belangrijke factor. Kort geding, rechter oordeelt dat de blog als geheel onrechtmatig is en beveelt offline halen daarvan. Uiteraard gaat dat dan op straffe van een dwangsom.

Automattic (de eigenaar van WordPress-het-platform) haalde de blog echter niet offline, en betaalde ook niet de dwangsommen. Daarop stapte de man naar de rechter, waarbij Automattic het verweer opwierp dat hij maar naar Californië moest gaan – de Nederlandse rechter zou onbevoegd zijn. Daar had de rechter weinig moeite mee; zij was wel degelijk bevoegd bij zo’n dwangsom-incasso-procedure (executiegeschil) omdat de rechter van de hoofdzaak dat ook was.

Dan de incasso van inmiddels twee ton aan dwangsommen? Nee, toch niet: nu kwam Automattic met het verhaal dat het vonnis niet juist uitgereikt was (betekend), zodat de startdatum voor de dwangsommen nooit was begonnen te lopen. De personen die de brieven zouden hebben gehad, waren niet bekend en niet bevoegd, de brief naar Amerika was naar het bedrijf zelf gestuurd en niet naar de registered agent, de Engelse vertaling van het exploot miste kerninformatie (45 Rv) – wat cynische ikke dus ‘moeilijk doen’ noemt.

Gelukkig is het recht niet voor één gat te vangen, want het kan niet de bedoeling zijn dat je werkelijk zo moeilijk moes doen om een buitenlands bedrijf aan te spreken. De constructie (art. 54 Rv) is dan ook dat je bij een bedrijf buiten de EU genoeg hebt gedaan als je het vonnis in de Staatscourant hebt gezet en het hebt betekend bij het Nederlands OM (inderdaad, die van de strafzaken).

Dat was hier ook gebeurd en dat was genoeg. Het is dus niét nodig dat je vonnis daadwerkelijk een buitenlandse (niet-EU) partij bereikt heeft, en dat is precies omdat je geen controle hebt over wat er daar gebeurt. Dat de advocaat van Automattic al op 14 april 2022 (een dag na de uitspraak) het vonnis had gehad, is dus niet eens belangrijk.

Blijft over de praktische vraag: wat nu? Want als het bedrijf zich in deze bochten wringt, dan bekruipt mij het gevoel dat ze niet na deze uitspraak ineens heel vriendelijk twee ton overmaken. Maar er zijn meer manieren om aan geld te komen. Met zo’n betekend vonnis kun je namelijk in andere EU-landen beslag laten leggen op geld of rechten die aldaar zijn. Denk aan een rekening waar Europese klanten betalen voor advertenties, de zakenauto van de Europese directeur of de handelsvoorraad ergens in een loods.

Of dat er allemaal is bij een internetbedrijf, kun je je afvragen. Maar wat er wel is, is één vermogensrecht en dat is het merk van Automattic, of beter gezegd het merk WordPress. Dat is immers juridisch gezien ook een vermogensrecht, en daar kun je beslag op leggen. Op korte termijn betekent dat dat Automattic er zelf niets meer mee mag doen, en als ze niet snel betalen dan is (in theorie) de mogelijkheid dat de eiser het merk gaat verkopen om zo die twee ton te verdienen. Ik ben benieuwd of Automattic het zó ver gaat laten komen.

Arnoud