Hoe aansprakelijk wordt OpenAI voor de zakelijke versie van ChatGPT?

OpenAI werkt aan een zakelijke, betaalde versie van zijn chatbot ChatGPT. Dat meldde Tweakers onlangs. Momenteel is de chatbot gratis maar niet voor bedrijfsdoeleinden inzetbaar (wat natuurlijk geen hond tegenhoudt om er zakelijk gebruik van te maken). Het onderscheid zal vooral zitten in beschikbaarheid, snelheid en meer berichten per minuut. Het riep wel vele vragen op, die in de comments mooi samengevat werden als “Hoe wordt er in de professionele variant rekening gehouden met data die proprietary is of waar, op zijn minst, een copyright op berust?”

Het GPT-3 taalmodel waar de chatbot mee werkt, is getraind op vele miljarden tekstvoorbeelden. Het doel is leren wat het meest logische volgende woord is – kort gezegd – op basis van een prompt en de reeds gegeven woorden. Dat is met genoeg voorbeelden prima mogelijk, zeker op het niveau van chats waarbij je een vraag moet beantwoorden. ChatGPT produceert dan ook verbluffend goede resultaten, hoewel er ook volkomen waanzinnige reacties tussen zitten die met de grootste overtuiging worden gebracht.

Die tekstvoorbeelden komen natuurlijk van internet, ‘gewoon’ met een crawler die heel internet downloadt en daar machine-leesbare chocola van maakt. De makers leggen uit dat ze meer dan een biljoen (Amerikaans trillion, 1012) woorden hebben verwerkt. Dat kan niet anders dan zonder toestemming, maar iedereen stelt dat dit onder fair use te rechtvaardigen is en weet bovendien dat het ontzettend moeilijk is aan te tonen dat specifiek iemands werk opgenomen is in de dataset, plus dat een rechtszaak om dít punt uit te vechten veel te duur is voor iedere individuele rechthebbende. Uitgesloten is het niet – zie de rechtszaak over CoPilot, waarbij software-eigenaren wel degelijk zagen hoe deze AI-tool herkenbare fragmenten uit hun werk reproduceerde als “AI-generated”.

In de VS zou er misschien nog een lichtpuntje zijn wanneer je aannemelijk kunt maken dat jouw werk is gebruikt, omdat je dan via de zogeheten discovery procedure inzage kunt krijgen in documentatie rondom de bronbestanden. Dan heb je in ieder geval het feitelijke bewijs dat jouw werk is gebruikt. Vervolgens zit je nog met het juridische punt of het inbreuk is om een AI te trainen op jouw data, of dat het pas inbreuk is als de AI jouw werk reproduceert (dat laatste lijkt me evident).

In het auteursrecht geldt nu eenmaal de regel dat het bronwerk herkenbaar terug moet komen in het beweerdelijk inbreukmakende werk. Als ik iemands artikel lees en me laat inspireren tot een hoofdstuk in een boek, dan schend ik geen auteursrechten, hooguit pleeg ik academisch plagiaat. Maar als ik het artikel min of meer naschrijf, dan komt het auteursrecht wel om de hoek kijken. De academische grap is dan ook: één bron gebruiken is plagiaat, honderd bronnen gebruiken is onderzoek. En laat AI nou dus heel duidelijk die laatste kant op gaan: als honderd bronnen gebruiken mag, dan zal varen op honderd miljoen bronnen toch zeker ook wel mogen.

Het nieuwe aan de discussie is vooral dat we nu een betaalde dienst krijgen met een SLA. Afnemers daarvan zullen meer garanties gaan eisen, waaronder dus met name een vrijwaring (indemnification) tegen claims van derden. Want als ik als rechthebbende lees dat er ergens een adviesbureau komt dat een juridische chatbot heeft, dan ga ik die natuurlijk aanklagen en niet OpenAI uit San Francisco. Want ik durf de stelling wel aan dat mijn blog ergens in die dataset zit. Dat bureau heeft dan een probleem, want die is zelfstandig aansprakelijk. Dus dan moeten ze OpenAI zo ver krijgen de verdediging te gaan voeren, en dan wordt het een groot verhaal waar best wat nuttige puntjes uit te slepen zijn.

Arnoud

Mijn foto is een datapunt in iemands AI, kan ik een schadevergoeding krijgen?

Simon / Pixabay

Via de website “Have I been trained” kun je achterhalen of jouw foto gebruikt is om een AI te trainen, las ik bij Ars Technica. Of nou ja, iets preciezer: of je foto in een van de enorme datasets zit waarmee tegenwoordig alle beetje fatsoenlijke AI’s worden getraind. Want die datasets zijn meestal zonder het ook maar iemand te vragen opgebouwd, dus een beetje pixeljager zou daar wel geld moeten zien. Maar valt er wel wat te eisen?

Wie een machine learning systeem wil trainen, heeft data nodig. Dat geldt voor iedere applicatie, maar voor afbeeldingen is het helemaal een complexe eis: waar haal je die enorme hoeveelheid plaatjes vandaan die nodig is om een adequate brede dekkingsgraad van je AI-toepassing te krijgen? Nou ja, dat pluk je gewoon van internet want als je het maar massaal genoeg verzamelt is het geen auteursrechtinbreuk meer maar innovatie (cf. Google Images).

De state of the art dataset tegenwoordig is LAION-5B,met 5,85 miljard afbeeldingen verreweg de grootste. Bijeengebracht voor researchdoeleinden en experimenteren met zulke enorme sets, aldus de website. “The images are under their copyright”, staat er dan ook. En dan de juridische truc, of nou ja truc, waarmee dat kan: elk item uit de dataset bevat simpelweg alleen de bron-URL van de afbeelding, waarmee de dataset zelf geen inbreuk is.

De dataset is voor haar doel buitengewoon nuttig: bij elk plaatje staan labels zoals wie of wat er te zien is. Met dergelijke metadata kun je systemen trainen die daarmee nieuwe afbeeldingen kunnen maken op een zelfbedachte suggestie (“copyright symbol racing against computer“). Die leren dan op basis van die metadata wat er zoal mogelijk is bij een dergelijke tekst.

Als je nu een dataset maakt door al die afbeeldingen te downloaden en daarmee een AI traint, heb je dan auteursrechten geschonden? De eerste stap – het downloaden – is voor onderzoekers of bedrijven problematisch, omdat in Europa in ieder geval zoiets buiten de thuiskopie-regeling valt. In de VS is dit mogelijk fair use, het staat immers legaal online en het downloaden van een afbeelding is dan fair. 

De volgende stap is het trainen van een machine learning model, waarbij dus allerlei features van die afbeeldingen worden geëxtraheerd en in combinatie met die metadata tot een algoritme wordt omgezet waarmee nieuwe afbeeldingen worden gemaakt. In principe zijn die echt nieuw, maar er zitten soms wel herleidbare stukjes in, zoals in deze foto met herkenbaar Getty watermerk. (Ik weet niet of dit is omdat het stukje met het watermerk paste bij de prompt of omdat het systeem heeft geleerd dat goede foto’s vaak een Getty watermerk dragen, en daaruit concludeerde dat dit erbij hoort.)

Het belangrijkste is, je kunt aan een AI eigenlijk nooit zien of jouw foto’s er specifiek in zitten. Deze tool maakt voor het eerst soort van dat wél mogelijk, althans als de AI-exploitant dus meldt dat hij met LAION-5B werkt (wat op zich een normale melding is, want het is nodig voor benchmarking). En dan kun je dus een claim doen, want gegarandeerd dat er dan bij dat bedrijf ergens een zipfile rondzwerft met een kopie van jouw foto(‘s).

Alleen: wat is je schade? Dit probleem is fundamenteel bij het auteursrecht online, zeker voor mensen die hun werk gratis op internet zetten. Want dan kun je niet eens de gemiste licentiekosten als schade opvoeren. En hier speelt dan ook nog eens dat we niet weten wat je auteursrechtelijk precies doet als je een foto omzet naar een berg datapunten waarmee je een image generator maakt.

De makers van deze tool hebben een iets andere insteek: zij willen dat de AI community vrijwillig overstapt naar een model waarbij toestemming de norm is, juist om de kleine creatieveling te beschermen. En dat is een heel nobel streven, met natuurlijk de kanttekening dat er weinig prikkel is om bij dit soort bedrijven hier op over te stappen.

Arnoud

 

Mag je persoonsgegevens gebruiken om een AI mee te trainen?

ahmedgad / Pixabay

Een lezer vroeg me:

Wij willen in onze organisatie gaan experimenteren met AI oftewel machine learning voor tekstanalyse. Onze bronbestanden bevatten persoonsgegevens (denk aan ingevulde aanvraagformulieren en onze beoordeling daarvan). Mogen we die meenemen in het bouwen van ons systeem?
Het gebruik van persoonsgegevens is natuurlijk gereguleerd onder de AVG. In principe is het niet de bedoeling dat je persoonsgegevens voor andere doeleinden gebruikt, zie mijn blog over testen met persoonsgegevens* als voorbeeld.

Er is echter een specifieke route bij het gebruik van data voor trainen van AI. AI oftewel machine learning is immers “alleen maar” statistiek, je zoekt naar patronen met wiskundige algoritmes, bijvoorbeeld lijnen die een heleboel metingen in twee groepen (ja/nee, gevaarlijk/normaal, etc) verdeelt of een formule waarmee je een nieuwe meting kunt plaatsen. In AVG terminologie noemen we dit een verwerking voor statistische doeleinden.

Vanwege artikel 5 lid 1 sub a AVG is dat dan in principe verenigbaar met het oorspronkelijke doel, wat dat doel ook was. Je mag statistisch onderzoek doen op je rechtmatig verkregen persoonsgegevens, daar is geen aparte toestemming voor nodig. De voornaamste eis is dat wat daaruit komt, niet rechtstreeks terug wordt toegepast op de betrokken personen, en al helemaal niet als een geautomatiseerde besluitvorming (artikel 22 AVG).

Dat is bij een AI model totaal niet aan de orde. Sterker nog, persoonsgegevens zijn gewoonlijk niet meer dan ruis – die paar keer dat er “Jansen” in een veld staat, heeft geen enkel effect. De vele duizenden bedragen waartussen geïnterpoleerd kan worden, of de velden met geslacht, werkzame status et cetera zijn veel belangrijker. Het statistisch model (“de AI”) dat eruit komt, zal dus niet of nauwelijks beïnvloed zijn door die namen of adressen in het bronbestand.

Het risico dat ik wel zie, is dat je een bron-dataset hebt waarin al die Jansens met naam en toenaam staan. Dat bestand zal dus goed moeten worden bewaakt, want daarin zitten dus leesbare persoonsgegevens en die zouden kunnen lekken of voor niet-statistische doelen worden ingezet. Tegelijk zul je dit bestand wel steeds nodig hebben bij iedere update, dus dit direct weggooien is ook weer geen optie.

Arnoud * sed s/Wbp/AVG/g

GitHub brengt AI-programmer uit die helpt bij het schrijven van code, mag dat van de GPL?

GitHub heeft een technische preview uitgebracht van Copilot, een AI-gedreven pair programmer die ontwikkelaars helpt bij het schrijven van code. Dat las ik bij Tweakers. Copilot stelt contextgebonden code en functies voor, en helpt acties bij het oplossen van problemen door te leren van de code die iemand schrijft. De AI is getraind op een grote dataset van publieke broncode, en dat zal vast grotendeels open source zijn onder de GPL want dat is nu eenmaal de bulk van de “publieke” software. Maar de GPL vindt daar iets van, van hergebruik.

Copilot kan automatisch opmerkingen omzetten in code, repetitieve code aanvullen en een functie testen tijdens het schrijven. Het systeem leert en verbetert zichzelf. Het klinkt als een hele goede ontwikkeling, maar als je even doordenkt dan besef je dat dit alleen kan door een héle berg broncode door te akkeren en tot een machine learning model om te zetten. Dat zegt men zelf ook:

Trained on billions of lines of public code, GitHub Copilot puts the knowledge you need at your fingertips, saving you time and helping you stay focused.

Er is die merkwaardige gedachte dat als iets “publiek” is, dat je er dan wat mee mag. Misschien moeten we naast “data is niets” nog een juridisch mantra invoeren: “dat het publiek is, is geen argument”. Want het gaat hier om software, en die is zonder twijfel auteursrechtelijk beschermd. En wanneer die “publiek” online staat, dan weet ik vrij zeker dat het om open source gaat. En dan krijg je dus te maken met de licentie. Of niet?

Interessant genoeg zegt men in de FAQ dan:

GitHub Copilot is a code synthesizer, not a search engine: the vast majority of the code that it suggests is uniquely generated and has never been seen before. We found that about 0.1% of the time, the suggestion may contain some snippets that are verbatim from the training set. Here is an in-depth study on the model’s behavior.
Er is natuurlijk een ontzettend groot verschil tussen een lap code copypasten en heel goed kijken naar “billions of lines of code” om jezelf te trainen. Wie zei dat ook weer, kopiëren uit één bron is diefstal en kopiëren uit honderd is inspiratie? Dat lijkt me hier ook van toepassing.

Het komt neer op de algemene vraag of het maken van een machine learning model een kopie is van alle brondocumenten of -data. Als dat zo is, dan krijg je met de licentie te maken en daar zou dan in dit geval de GPL op van toepassing kunnen zijn. Dan zou alle code die Copilot suggereert, onder de GPL vallen, want dan is al die code afgeleid van de GPL code die erin ging. En dan is dus ook elk door Copilot mede geschreven project GPL.

Bewijstechnisch valt daar nog wel wat op aan te merken: de GPL auteur zal moeten bewijzen dat deze suggestie gedaan is op basis van haar code, want zonder kopie geen inbreuk. En dat zal niet meevallen. Maar dat terzijde.

Is een machine learning model inbreuk op de rechten van de brondocumenten? In de VS waarschijnlijk niet. In 2019 oordeelde de Second Ciruit (de hogerberoepsrechter voor New York, Connecticut en Vermont) dat het verwerken van stukjes uit boeken om een boekenzoekalgoritme te trainen géén inbreuk op auteursrechten is. De dataset die daarmee ontstaat, is dus niet onderworpen aan toestemming (of licentie) van de boekenrechthebbenden.

In Europa zijn er geen vergelijkbare zaken. We hebben wel de Infopaq-zaak, waarin werd bepaald dat het overnemen en verspreiden van 11 woorden (een snippet in zoekresultaten) onderworpen kan zijn aan auteursrechten, maar het ging daar om het publiceren van zoekresultaten in een nieuwsbrief. Dat is toch echt wat anders dan een statistisch model maken waarin staat dat codestukje X vaak samengaat met Y, of dat constructie A goed aansluit bij aanhef B. Ik volg dan ook de conclusie van professors Gotzen en Janssens:

Vooral de overwegingen in de arresten Infopaq I, in verband met bepaalde handelingen van ‘data capturing’ die onder het toepassingsgebied van de uitzondering kunnen vallen, verdienen aandacht. Maar de vijf voorwaarden die de uitzondering … oplegt, zijn cumulatief en, mede in het licht van de regel van de strikte interpretatie, zijn we niet geneigd om te concluderen dat alle gebruikshandelingen voor het trainen van AI-systemen die gebruik maken van beschermd materiaal, door deze uitzondering zullen worden afgedekt.
Die vijf voorwaarden zijn als volgt:
  1. deze handeling is tijdelijk;
  2. deze handeling is van voorbijgaande of incidentele aard;
  3. deze handeling vormt een integraal en essentieel onderdeel van een technisch procedé;
  4. dit procedé wordt toegepast met als enig doel de doorgifte in een netwerk tussen derden door een tussenpersoon of een rechtmatig gebruik van een werk of beschermd materiaal mogelijk te maken, en
  5. deze handeling bezit geen zelfstandige economische waarde.
Een machine learning dataset maken is een tijdelijke handeling, die essentieel en integraal nodig is om het neuraal netwerk mee te maken. Dat trainen is niet op zichzelf economisch waardevol (de exploitatie van het resultaat natuurlijk wel, maar dat bedoelt men hier niet). Punt 4 zou je dan naar analogie moeten interpreteren, wat het Hof van Justitie doet in punt 64 van het arrest:
wanneer de levensduur ervan is beperkt tot hetgeen noodzakelijk is voor de goede werking van het betrokken technische procedé, waarbij dit procedé geautomatiseerd moet zijn zodat deze handeling automatisch, zonder menselijke interventie, wordt gewist zodra de functie ervan om dit procedé mogelijk te maken is vervuld.
Oftewel in gewone taal “ik extraheer even de essentiële kenmerken om een statistisch model te maken, daarna gooi ik het weer weg” en dat zou dan mogen.

Arnoud

Keurig betaald met de parkeer-app en toch een bekeuring

Twee jaar geleden parkeerde rechtenhoogleraar Corien Prins haar auto in de Utrechtsestraat in het centrum van Tilburg, zo opende NRC een juridisch artikel. Ze betaalde met haar parkeer-app, die aangaf dat ze daar een uur mocht staan. Maar dat bleek niet te kloppen en ze kreeg een boete. Ja mevrouwtje, zo gaat het verhaal dan, die app is niet van de overheid dus dan blijft het uw eigen verantwoordelijkheid he. Maar de app wordt natuurlijk wel gevoed met informatie afkomstig van de gemeente, die bouwers gaan echt niet zelf elk verkeersbord nazoeken. Interessant genoeg geeft de Hoge Raad Prins gelijk.

Uit het arrest blijkt dat op de betreffende locatie alleen geparkeerd mocht worden met vergunning of dagticket, terwijl Prins via haar app voor een uur had betaald (€2,20 in plaats van een dagkaart van €16,50). Op een bord aan het begin van de straat stond dat ook aangegeven, maar de parkeer-app wist niet beter dan dat je per tijdseenheid kon parkeren.

Die informatie over waar je betaald moet parkeren, die haalt zo’n bedrijf natuurlijk niet zelf overal op. Die wordt door gemeenten aangeleverd, er is zelfs een Nationaal Parkeer Register (spatiefout in origineel) waarin deze informatie op te halen is. En daar ging het dus mis, de gemeente Tilburg had die informatie over die dagkaart niet correct in het NPR gezet. Wiens fout is dat nou?

Rechtbank en Gerechtshof legden de verantwoordelijkheid voor het op de juiste manier voldoen van de parkeerbelasting toch bij de burger neer. Je kiest er zelf voor om een app te gebruiken, je had ook het bord kunnen controleren en dan had je het kunnen weten. Dat de gemeente die informatie in het NPR stopt en de appbouwer daarop afgaat dat is niet het probleem van de handhaving, je moet daar altijd op bedacht blijven als je gaat parkeren.

Ja die vond ik ook niet heel sterk. En vooral de Hoge Raad niet, en die heeft er nog een juridisch argument voor ook. Volgens de Gemeentewet moet je duidelijk informeren hoe en waarvoor er parkeerbelasting moet worden betaald. Als je vervolgens als gemeente toelaat dat men via een app betaalt, dan moet je als gemeente zorgen dat ook in de app duidelijke informatie beschikbaar is over het betalen.

In cassatie staat vast dat belanghebbende bij het betalen door middel van de parkeerapp onjuiste gegevens omtrent de verschuldigde parkeerbelasting te zien kreeg. Daarmee staat ook vast dat de gemeente Tilburg niet heeft voldaan aan haar hiervoor in 2.4.1 omschreven informatieplicht ten aanzien van deze wijze van betaling. Aangezien de Verordening aan belanghebbende de keuze biedt tussen betaling door middel van een parkeerapp of een parkeerautomaat en tussen die wijzen van betaling geen onderscheid maakt, kan aan belanghebbende niet worden tegengeworpen dat hij is afgegaan op de tariefinformatie in de parkeerapp zonder ook tariefinformatie in de plaatselijke parkeerautomaat en/of op in de omgeving geplaatste borden te raadplegen.
De naheffingsaanslag wordt dan ook vernietigd. Hopelijk wordt de informatie nu ook snel aangepast; in het artikel wordt Tilburg geciteerd als dat ze hebben gezegd dat het wel vaker fout gaat. Maar nu er eindelijk een sanctie staat op die fouten, hoop je dat er een prikkel is om dit op te lossen. „Op het moment van de uitspraak van de Hoge Raad was de kaart al verbeterd en de gemeente Tilburg is bezig om de kaarten nog nauwkeuriger in te tekenen”, aldus de gemeente.

Arnoud

 

Van bak met data naar een werkende lawyerbot #ndalynnweek

Weet je wat het idiootste is aan AI? Dat iedereen het maar over algoritmes heeft en hoe spannend of bedrijfsgeheim die zijn. Het labelen van je data, dát is waar de kwaliteit van je systeem mee staat of valt. Ik vind het dan ook erg raar dat je overal leest dat men een blik studenten opentrekt of via diensten als Mechanical Turk willekeurige mensen labels laat zetten. Of dat wij via reCaptcha en dergelijke diensten zeggen waar zebrapaden lopen of verkeerslichten te zien zijn. Data is de kern van je dienst, dus hoezo besteed je dat uit en pronk je vervolgens met je unieke algoritmes die uiteindelijk niet ter zake doen?

Natuurlijk, studenten inzetten is goedkoop maar waar vind je de rechtenstudent die in honderd NDA’s zinnen kan herkennen als zijnde overmacht, verlenging, aansprakelijkheid met boete enzovoorts? In een rechtenopleiding krijg je welgeteld nul contracten te lezen (ja, serieus) laat staan een specifiek document als een NDA.

Dus nee, er zit niets anders op dan het zelf te doen. Gelukkig vind ik het perfecte moment om dit te doen: mijn dochter van een paar maanden oud slaapt ’s nachts beter als ik in de kamer zit, dus ik leg mijn laptop klaar en ga labelen tot ze slaapt. Zo kom ik in een paar maanden tot een volgens mij keurig gelabelde dataset. Een paar steekproeven op de resultaten laat zien dat ik redelijk consistent label, ook al heb ik geen formele criteria opgesteld om clausules te categoriseren.

Dat is ergens ook wel een beetje de makke van zo’n systeem. Er zijn geen echte categorieën waar je op terug kunt vallen, je moet zelf maar iets bedenken. Zowel het soort clausule (is een vrijwaring een vorm van aansprakelijkheid of iets heel anders) als de smaakjes daarbinnen (is een ton aansprakelijkheid erger dan een boete van 10k per gelekt geheim). Dus ik doe maar wat. Bij elke zin bedenk ik een categorie, en na driehonderd zinnen ga ik categorieën samenvoegen en splitsen.

Hier, de tagger waarmee ik al die tijd heb gewerkt om zinnen van labeltjes te voorzien. Je ziet hoe het aantal categorieën is geëxplodeerd:

En de clauser, waarmee ik groepen zinnen (clausules dus) van een smaakje kon voorzien:

Dan heb je dus een berg zinnen en bijbehorende clausules, en daarmee kun je BigML gaan trainen. Dat had nog heel wat voeten in de aarde. Het eerste datasetje deed het goed, het voelt echt héél gaaf als je dan een test doet:

galactus@toad:~> php tagtest.php
input text: "Recipient shall use the same level of security as it uses for its own sensitive information to protect the Confidential Information against unauthorized use or disclosure, but at least a reaasonable level of security."
..... bigml says: security / standard
galactus@toad:~> 
En dat klopte helemaal. Maar er zaten genoeg fouten in. In het jargon: de F1-score was maar 0,64 en dat is niet genoeg om een commerciële dienst op te drijven. Terug naar de tekentafel dus, of beter gezegd de datatafel.

Allereerst viel me op dat ik toch wel wat foutjes had gemaakt. Dit haal je uit de confusion matrix, waarbij je kunt zien welke uitvoer op welke foute manier gelabeld wordt. Dan zie je bijvoorbeeld dat ‘parties’ clausules vaak als security clausules worden aangemerkt, zodat je specifiek daar extra voorbeelden van toe kunt voegen en foutcorrectie kunt doorvoeren.

Ook ontdekte ik dat ik de nodige categorieën had die ik zelf eigenlijk niet snapte. Overlap tussen categorieën maakt dat ML systemen slecht performen. Snoeien dus, en zorgen dat je per categorie duidelijk kunt aangeven wat erin hoort. Toch het nadeel van in halfslaap taggen wellicht?

De ingewikkeldste ingreep had te maken met dit soort clausules:

Recipient shall (a) treat all Confidential Information with the highest care; (b) only permit persons having a clear need to know access; (c) evaluate the Confidential Information at its own risk; (d) comply with relevant export regulations; (e) indemnify and hold harmless Discloser from any damages in connection with usage of the Confidential Information; and (f) waive its right to a jury trial.

Welke categorie plak je hier nu weer op? Het artikel regelt van alles, van security eisen tot wie het mag zien tot aansprakelijkheid en iets met juryrechtspraak. Daar kun je dus helemaal niets mee. Dat moest worden opgesplitst. Een hele vieze reguliere expressie (dit gaat een thema worden in het verhaal) splitste zo’n clausule in meerdere tegelijk, waarbij elke één van die zes bullet items bevatte.

En wat ook nog eens leuk bleek te werken, was bij elke zin mee te geven op welke plek hij in het document stond. Een zin over Florida aan het begin van een NDA gaat meestal over waar een partij gevestigd is. Staat hij aan het einde, dan is het waarschijnlijk de rechtskeuze. Dus kreeg elke zin als extra veld mee waar hij in het document stond. En hoe lang hij was (in woorden) want dat blijkt ook uit te maken. Grof gezegd, hoe langer een zin hoe strenger de bepaling. Soms is juridisch werk heel makkelijk.

Stiekem ook nog wat reguliere expressies bij de kwalificatie van clausules. Want sommige dingen zijn inschattingen (is dit streng of juist niet), anderen zijn gewoon simpel lezen. Een rechtskeuze voor Florida is geen inschatting, dat zie je gewoon letterlijk staan. Dus als je weet dat een clausule over rechtskeuze gaat (dat zegt de 1st stage classifier) dan kijk je gewoon welk land je ziet staan in die clausule en dat zal de rechtskeuze dan wel zijn.

Idem voor duur van het contract. Een AI heeft héél veel moeite met lezen of er staat dat een contract drie jaar duurt. Maar een reguliere expressie vindt hem zo. Deze oplossing is wat lomp, maar computers zijn snel en krachtig genoeg en het scheelt ontzéttend veel in de uitvoer. Mag ik zeggen, de regexp is de ducttape van de artificial intelligence?

Als laatste truc voegde ik vlaggetjes toe. Een machine learning systeem kijkt in principe naar losse woorden, maar juist in juridische teksten gebruikt men vaak vaste uitdrukkingen (“reasonable security measures”, “confidential information”, “receiving party”) en die moet je dus niet opsplitsen. De vlaggetjes werden toegevoegd met wéér een setje reguliere expressies, en dat gaf alles bij elkaar een hele mooie verbetering: een F1 van 0,86. Genoeg om de markt mee op te durven.

(Dit is de tweede van vijf vakantieberichten.)

Arnoud

Google-medewerkers luisteren Nederlandse gesprekken mee, is dat erg?

Medewerkers van Google luisteren gesprekken mee die Nederlanders voeren met hun slimme Google-assistent, zonder dat Google daar vooraf duidelijkheid over geeft. Dat meldde de NOS vorige week. Het gaat om fragmenten van gesprekken die door de AI-assistent niet werden verstaan; een mens maakt dan een transcriptie waar de AI van kan leren. Vanuit technisch perspectief volkomen normaal, als een AI een fout maakt dan is menselijk bijleren de enige manier om dat op te lossen. En zo te lezen gaat het om fragmenten zonder verdere koppeling aan Google ID of feedback naar je interesseprofiel. Desondanks een relletje, ik denk omdat mensen zich nu beseffen dat zo’n kastje niet gewoon een slim ding is dat je verstaat, maar een microfoon met héle lange kabel waar gewoon mensen een koptelefoon bij opzetten. Is dat nou erg?

De zaak is aan het rollen gekomen omdat een Google-medewerkers fragmenten deelde met de NOS, omdat “het belangrijk is dat mensen beseffen dat er mensen meeluisteren”, zo stelt de anonieme Google-medewerker. Nieuwswaardig was dat zeker: een hoop mensen blijkt ineens zeer verbaasd en geschokt dat er dus kennelijk meegeluisterd wordt.

Maar zoals gezegd, “meeluisteren” is een groot woord. Er zit niet ineens een man met gleufhoed en koptelefoon de hele dag gezellig te luisteren. Er worden fragmenten geüpload naar Google waar medewerkers dan een transcriptie van maken, zodat de spraakherkenning-engine opnieuw getraind kan worden. Daarbij gaat het echt alleen om algemene, veel gebruikte termen – met de bijnaam voor je geliefde of de geluiden van het ontbijt kan Google Home toch niets.

Maar ja, meeluisteren is het. Want er is dus wel een mens dat dat gesprek beluistert, ook al is dat met complete desinteresse en uitsluitend gericht op een betere herkenning van “uitsluitend” met Goois of Limburgs accent, of iets dergelijks. Ik snap dus desondanks de ophef wel. Je koopt zo’n kastje inderdaad omdat je wil dat er iemand meeluistert en dingen doet met wat je zegt – dat is de sales pitch van het apparaat. Maar de ‘iemand’ is dan een kastje, een apparaatje, een digitale butler. Niet een medewerker. In een winkel vind ik het ook fijn om de prijs van een pot pindakaas te kunnen scannen, maar dan wil ik niet een medewerker achter me hebben staan die zegt “oh de pot van een liter is in de bonus”. Of zelfs maar die glazig meekijkt. Dat is niet de afspraak bij het gebruik van zo’n apparaat.

Mag dat? De NOS vertelt:

Mensen die Google Home of Assistent installeren worden er niet op gewezen dat mensen de spraakopdrachten af kunnen luisteren. Wel staat in de algemene voorwaarden van Google dat het bedrijf “audiogegevens” verzamelt. Dat deze kunnen worden afgeluisterd door mensen, en dat er per ongeluk ook andere gesprekken kunnen worden opgeslagen, blijft onvermeld.

De juridische discussie is dan, is hiermee mensen “duidelijk en in eenvoudige taal” uitgelegd dat dit kon gebeuren? Ja zal Google zeggen, het staat in de privacyverklaring en die moet je gewoon even lezen. Plus je weet dat die apparaten meeluisteren dus dan is het raar om ineens te zeggen, ik wilde niet dat hij meeluisterde.

Hier wreekt zich dan het verschil tussen juridische compliance en de praktijk. Ik geloof graag dat die zin over audiogegevens verzamelen voldoet aan taalniveau B2 van het Europees Referentiekader Talen en dus “duidelijk en eenvoudig” is, in de zin dat mensen de term “audiogegevens” kennen. Maar het gaat natuurlijk om de implicaties, kunnen overzien hoe ver het gaat met dat verwerken van audiogegevens. En dat is waar de ophef vandaan komt, ook bij mensen die superveel delen op social media (de standaard tegenwerping als mensen bij Google klagen over privacy), je hebt een bepaalde verwachting van privacy en die wordt geschonden.

Arnoud

Facebook overtreedt mogelijk AVG door medewerkers posts te laten labelen

Facebook overtreedt mogelijk de Europese privacyverordening AVG door medewerkers van daarvoor aangestelde bedrijven te laten kijken naar posts om ze te labelen. Dat las ik bij Tweakers maandag. Een team van 260 mensen uit India leest al jaren alle berichten (inclusief foto’s) om die van labels te voorzien, zo ontdekte Reuters namelijk. Die labels classificeren de berichten in vijf “dimensies”, zodat Facebook kan leren van wat mensen posten en hoe daarop in te springen. En er zal ook vast een AI mee getraind worden. De privacyzorg zit hem dan in het feit dat er geen aparte toestemming is gevraagd voor dit labelen. Maar moet dat dan, van de AVG?

De AVG kent inderdaad de eis van toestemming – maar naast toestemming zijn er nog vijf zogeheten grondslagen om met persoonsgegevens te werken. Als je gegevens bijvoorbeeld nodig hebt om een contract af te handelen, dan heb je geen toestemming nodig. Webshops die aanvinkvakjes inbouwen met “ik geef toestemming bovenstaande gegevens te gebruiken om mijn bestelling te behandelen” snappen er dus niets van. Die toestemming is helemaal niet nodig.

De controversieelste grondslag is die van het “eigen gerechtvaardigd belang”. Dan zeg je namelijk, ik heb een belang als bedrijf om dit gewoon te gaan doen, maar ik heb wel rekening gehouden met je privacy door maatregelen A en B te nemen. Controversieel, omdat je hiermee eigenlijk weigert de ander te vragen om toestemming en veel mensen gewoon verwachten dat je toestemming vraagt waar nodig. Maar ook weer gerechtvaardigd omdat je soms nu eenmaal geen toestemming kúnt vragen. Een triviaal voorbeeld is camerabewaking of fraudedetectie in je betaalpatronen.

Facebook vraagt dus geen toestemming om berichten die post (of als privébericht verstuurt) voor te leggen aan haar labelingsteam. Dat zouden ze dus moeten rechtvaardigen onder dat eigen belang. Het belang zie ik: je herkenning van soorten berichten verbeteren is een wenselijk en nuttig doel, zeker gezien de druk op Facebook om terrorismeverheerlijking, nepnieuws, opruiing en dergelijke te kunnen detecteren en weren.

De discussie die je dan krijgt, is in hoeverre Facebook dit kan rechtvaardigen. En dat komt vaak neer op hoe zeer men rekening houdt met de privacy van personen. Mijn juridische onderbuik zegt dat een bericht tonen aan een intern team dat er een label op plakt (pardon, “verrijkt met een AI-ready dimensie”, dank u marketingafdeling) niet heel erg een inbreuk op de persoonlijke levenssfeer is. Het label heeft geen enkel gevolg voor het bericht zelf, dit wordt niet verwijderd of aangepast op basis van de beoordeling. Plat gezegd, hier merk je niets van.

Twijfel heb ik wel bij het stukje van de privéberichten, want ook die worden gelezen. Het voelt principieel niet juist om een direct bericht tussen A en B te lezen en te taggen, ook niet als die tag verder nergens gebruikt wordt. Dat is gewoon privé, afblijven. Maar ik kan niet ontkennen dat ook hier het argument “je merkt er niets van” opgaat.

Arnoud

AIVD en MIVD maken rechtmatig gebruik van persoonsgegevens in bulkdownloads

De inlichtingendiensten AIVD en MIVD gaan “rechtmatig” om met datasets met persoonsgegevens die online worden aangeboden. Dat las ik vorige week bij Nu.nl. Deze conclusie volgt uit het rapport 55 over het verwerven van op internet aangeboden bulkdatasets van de Commissie van Toezicht op de Inlichtingen- en Veiligheidsdiensten. Dat “online aangeboden” moet je met aanhalingstekens uitspreken, want het gaat eigenlijk om gelekte of gestolen gegevens die op schimmige plekken te verkrijgen zijn. Maar voor de inlichtingendiensten is dat dus geen probleem.

Het klinkt ergens gek, maar ook de AIVD en haar militaire broertje de MIVD moeten de privacy respecteren van mensen die ze bespioneren. Dat betekent dus dat het gebruiken van ‘gevonden’ datasets met persoonlijke informatie niet zomaar kan, met name omdat daar ook veel gegevens in zullen zitten van mensen die in het geheel niet in beeld zijn bij de inlichtingendiensten.

Het gebruik van die persoonsgegevens is geregeld in de Wet op de Inlichtingen- en Veiligheidsdiensten, waarvan editie 2002 van toepassing was op de vergaring. (En editie 2017 is de beruchte ‘sleepwet’.) De bevoegdheden zijn een stuk breder dan voor gewone burgers of overheidsinstanties. Kort gezegd mag er veel meer zolang het maar enigszins gedocumenteerd wordt en het gebruik netjes wordt bijgehouden.

Zo is er een openbronregeling die bepaalt hoe men informatie uit open bronnen mag betrekken, waarbij het niet uitmaakt of die bron de gegevens legaal of illegaal publiceert. Daarbij is het zelfs toegestaan om je te registreren onder een valse naam en dan te zien wat er te downloaden is; de grens ligt bij de aanbieder overhalen tot het verstrekken van de bron. Dat mag ook maar valt onder de agentregeling met net iets strengere eisen.

Aanleiding voor het onderzoek was dat de diensten bestanden hadden gekocht op het “dark web” (/insert omineuze muziek) met gegevens over meer dan honderd miljoen personen, waarvan het overgrote deel nooit en te nimmer relevant zou zijn voor het inlichtingen- en veiligheidswerk. Het ging daarbij om vertrouwelijke informatie die onrechtmatig in die bestanden terecht was gekomen en die normaal nooit zomaar bekend zou zijn.

De AIVD had die gegevens snel opgehaald omdat ze vermoedden dat die zomaar weggehaald zou kunnen worden, en deed dat onder de openbronregeling omdat ze dachten dat het dark web daaronder viel. Maar omdat het feitelijk een aankoop van een bestand was, had dit onder de agentregeling moeten gebeuren. Dat ging dus mis, maar betekent uiteindelijk weinig omdat -zo concludeert de commissie- het onder de agentregeling legaal zou zijn geweest. Belangrijk was daarbij ook dat er op hoog niveau toestemming was gegeven voor de aankoop.

Bij een tweede dataset van vergelijkbare omvang en inhoud ging het mis. Daar werd die toestemming niet op dat niveau gevraagd, en was niet duidelijk hoe men daar precies aan gekomen is. Uiteindelijk heeft dit geen gevolgen, omdat het gebruik verder netjes binnen de lijntjes blijft en het waarschijnlijk was dat er toestemming zou zijn gegeven.

De totale uitkomst verrast dus niet. Over blijven aanbevelingen om zorgvuldiger met de gegevens om te gaan, en jaarlijks te bekijken of de datasets nog nuttig zijn in de praktijk. En meer algemeen om beleid te maken over hoe om te gaan met downloaden of aankopen van datasets als deze. En dat is hoe het eigenlijk altijd gaat met zulke dingen: het mocht niet, maar de schade lijkt beperkt en als er dan beleid op komt, dan is het goed.

Arnoud

Mag je de Twitter API scrapen voor wetenschappelijk onderzoek?

twitter-agent-politieEen lezer vroeg me:

Deze meneer heeft een mooie data-analyse gemaakt van Donald Trump zijn tweets: Trump zelf gebruikt een Android-apparaat en een ghostwriter nuanceert de boel vanaf een iPhone. Daarbij vroeg ik mij af of dit zomaar mocht. Twitter zegt van wel bij onderzoeksdoeleinden (onder bepaalde voorwaarden). Zoals dat je je dataset niet mag delen met anderen, wat het weer moeilijk maakt voor écht onderzoek.

Op het eerste gezicht zou je zeggen dat onderzoek op Twitterberichten geen probleem zou zijn. Onderzoek op basis van krantenberichten is al decennia oud en geen probleem. En wat is Twitter nou anders dan een krant, zij het sneller en korter en met megaveel meer berichten?

Nou ja, om er eens eentje te noemen: Twitter is een dienst, en een krant is een product. Kranten kun je dan ook legaal inzien vanuit allerlei plekken, zoals bibliotheken, zonder dat daar allerlei gebruiksvoorwaarden gelden. Natuurlijk is het kopiëren van krantenberichten auteursrechtelijk een probleem, maar onderzoeken welke artikelen in Nederlandse kranten door ghostwriter zijn geschreven, is volgens mij volstrekt legaal.

Bij Twitter ligt dat anders. Twitter is een dienst, en kan daar voorwaarden aan verbinden. Die hebben ze dan ook, maar ik kan er geen specifieke regels over wetenschappelijk onderzoek in vinden. Deze API licentie gaat primair over het kunnen vertonen van tweets in je eigen dienst, eventueel licht gemasseerd om ze passend te krijgen. Het is bijvoorbeeld expliciet verboden de berichten op te slaan, wat onderzoek al bemoeilijkt – helemaal voor het verifieerbaar maken van je onderzoek want je mag de dataset dus niet vrijgeven.

Op zich is dat legaal. Een dienstverlener mag zelf weten wat ze toestaat met de resultaten van haar dienst, er is geen regeling zoals de auteursrechtelijke uitputting die bepaalt dat beschermde producten zoals boeken of kranten vrij bruikbaar zijn voor legale verkrijgers.

In de praktijk lijkt het wel mee te vallen. Ik heb nog nooit gezien dat Twitter een sommatie stuurde naar een researcher, en kan me dat (afgezien van research dat de servers overbelast) ook eigenlijk niet voorstellen. Twitter zou er weinig mee te winnen hebben en veel te verliezen. Maar afhankelijk zijn van een welwillende opstelling van een dienstverlener is natuurlijk wat anders dan iets mógen.

Arnoud