‘IBM biedt zonder toestemming fotodatabase gezichtsherkenning aan’

Het Amerikaanse technologiebedrijf IBM heeft zonder toestemming van de gefotografeerden een miljoen foto’s van fotosite Flickr gebruikt om kunstmatige intelligentie op gezichtsherkenning te trainen. Dat meldde Nu.nl op gezag van nieuwszender NBC. De dataset met foto’s en toegevoegde metadata werd eerder al door Yahoo (de eigenaar van Flickr) aangeboden, waarbij men zich beriep op de Creative Commons licentie die op de foto’s zit. IBM zag daar een mooie bron in voor een machine learning dataset, met name omdat de fotocollectie een diverser beeld van de mensheid geeft dan de typische wittemannendatasets voor dergelijke toepassingen.

In de VS bestaat geen duidelijke wetgeving over gebruik van je portret. Heel kort door de bocht ben je vogelvrij als je op de openbare weg bent en iemand een foto van je maakt. Die mag daar alles mee doen dat hem goeddunkt, inclusief dus op internet publiceren onder een “voel je vrij en ga je gang”-licentie zoals Creative Commons. Het is dus daar goed mogelijk dat mensen gaan handelen in foto’s waar je herkenbaar op staat, en of dat nu voor publicatie in een tijdschrift is of voor het trainen van een gezichtsherkenning-AI maakt daarbij niet uit.

In Europa zou dit problematischer zijn, omdat de AVG vrij duidelijk is dat een foto een persoonsgegeven is en er dus onder de AVG een grondslag moet zijn om die foto aan een ander te geven. Zonder toestemming van de geportretteerde kom je dan al heel snel uit bij het zogeheten legitiem belang, wat in feite dezelfde afweging geeft als vroeger het portretrecht – welk belang heb jij tegen publicatie, en welk belang kan de handelaar daar tegenover zetten. In journalistieke contexten kom je daar nog wel uit, maar pure handel in een portret zie ik niet snel gerechtvaardigd onder de AVG.

Het verbaast me echter volstrekt niets dat dergelijke databanken worden gescrapet voor machine learning. Het bouwen van een goede dataset is moeilijk, en vaak wordt dan maar gekozen voor zo veel mogelijk data. Veel matige data komt vaak ongeveer net zo goed uit als een kleinere goed geselecteerde dataset, en met minder kosten. Plus, de betrokken personen merken er niets van, tenzij de dataset uitlekt en iemand de afbeeldingen gaat herleiden tot hun bron natuurlijk.

Arnoud

20 reacties

  1. Het is mogelijk om de training data te herleiden als je toegang hebt tot de voorspellingen van een reeds getrained model. In dat opzicht is een model een fuzzy soort database.

    Ook zijn sommige afbeeldingen gebruikt zonder attributie in acht te nemen. (CC-BY ipv CC0).

    1. Maar de CC-BY is alleen van toepassing bij herpublicatie van de werken. Nu kun je creatief worden en de resultaten van een getraind model als herpublicatie opvatten, maar die lijkt me wel heel vergezocht.

      1. CC Attributie is meer dan herpublicatie.

        Adapt — remix, transform, and build upon the material for any purpose, even commercially.

        Je transformeert het in een dataset en bouwt er een model bovenop.

        Als IBM de training set of model publiceert, en ik gebruik deze voor een kunstproject, dan geef ik attributie aan IBM. Waarom IBM niet aan de originele makers? Redelijk is een lange pagina met namen.

        1. You are free to: Share — copy and redistribute the material in any medium or format Adapt — remix, transform, and build upon the material for any purpose, even commercially.

          De herpublicatie hier is “redistribute”. Wat IBM hier doet is “remix”, “transform”, en “build upon”. Al neemt IBM het gemiddelde van alle pixels in een foto en transformeert het resultaat in 1 enkele pixel, dan nog is het een “adaptatie”. Het werk wordt door het neurale netwerk getransformeerd in 1 enkele voorspelling.

          Bovendien is gemakkelijk een scenario denkbaar waar elke pixel 1-op-1 gemapped wordt naar eenzelfde output. (Een netwerk zonder modificatie gewichten). Dat IBM meerdere pixels naar 1 output pixel mapped is simpelweg nuttige compressie (en compressie toepassen op een werk telt wel als adaptatie).

  2. Dan nu de hamvraag: wanneer je een CC-gelicenseerde dataset gebruikt voor het trainen van je machine learning model, valt het resulterende model dan ook onder de CC-license?

    (Gedachtenoefening: een zwaar overfitted ML model zou de foto’s gewoon kunnen opslaan en on-demand reproduceren: ik stop er een foto van Arnoud in en leer het model dat dit een foto van Arnoud is. Het model gaat helemaal niks met neurale netwerken doen en slaat de foto gewoon op als Arnoud.jpg. Als ik vervolgens vraag om een foto van Arnoud zou het model de foto weer 1-op-1 kunnen ophoesten).

  3. Doet me denken aan de recente ’10 years challange’ op Facebook waarbij gebruikers aangemoedigd werden om een foto van tien jaar terug en een foto van nu naast elkaar te zetten. Ook een hele waardevolle databron. Als je de mensen dus vraagt of ze hun foto’s willen delen met adverteringsmaatschappijen en dergelijke, dan staan de meeste daar zeker voor open.

  4. diverser beeld van de mensheid geeft dan de typische wittemannendatasets

    Oeh! Idee! Tesla heeft toch ook moeite gepigmenteerde voetgangers te herkennen? Misschien kan dat opgelost worden door de AI te trainen aan de hand van de openbare databanken met mugshots die de politie maakt!

  5. diverser beeld van de mensheid geeft dan de typische wittemannendatasets

    Oeh! Idee! Tesla heeft toch ook moeite gepigmenteerde voetgangers te herkennen? Misschien kan dat opgelost worden door de AI te trainen aan de hand van de openbare databanken met mugshots die de politie maakt!

    1. Omdat de tweede persoon die ik opvroeg een zesjarig jongetje was met een stoppelbaard aan de linkeronderkant van zijn kin.

      Daarnaast, ook een GAN heeft een dataset als vergelijkingsmateriaal. Als in die dataset alleen Arnoud zit, dan blijft het netwerk net zolang proberen totdat het een afbeelding heeft gegenereerd die zoveel op Arnoud lijkt dat de ‘adversary’ (de A in GAN) het goedkeurt. In die zin zijn ook door AI gegenereerde gezichten gebaseerd op echte gezichten.

  6. Zucht, IBM , niets geleerd van de geschiedenis net als de overheid.

    https://isgeschiedenis.nl/nieuws/ibm-en-de-holocaust

    En is heden ten dage nog steeds betrokken bij heel veel overheids instanties zoals bv het UWV, herhaling is dus niet uitgesloten.

    En vergeet niet dat alle medewerkers die vanaf het begin bij IBM zaten, in principe allemaal financieel onafhankelijk zouden moeten zijn. De houden hun mond wel, want: mee geprofiteerd.

  7. pure handel in een portret zie ik niet snel gerechtvaardigd onder de AVG.

    Waarom niet? Voor zover verkoop en beoogd gebruik al strikt te scheiden zijn ligt de echte belangenafweging toch bij de ontvanger, niet de verkoop an sich? Anders zouden veel vormen van datahandel nu allemaal onmogelijk worden, wat mij als conclusie toch te ver gaat.

      1. Ik zie weinig belang (anders dan sec het grondrecht van ondernemen) bij handel in andermans portret

        Waarom is het ondernemers/winstbelang van de verkopende partij onvoldoende? Het belang dat daar tegenover staat is tenslotte het (privacy)belang van de betrokkenen, en mits de ontvangende partij verder netjes AVG-compliant met de gekochte gegevens omgaat (dus o.a. voldoende eigen grondslag heeft voor verwerking) zijn er volgens mij vrijwel per definitie geen rechten of vrijheden in het geding.

        Het lijkt me dan ook dat de discussie hier dus vooral gaat over wat de ontvanger wel of niet mag met de gekochte gegevens en de eventuele verantwoordelijkheid van de verkoper voor die latere verwerking, maar niet de verkoop an sich. Of zie ik dat verkeerd?

        de meeste mensen willen niet onwetend ingezet worden als stockfotofigurant

        Dat niet willen en geschaad worden in je fundamentele rechten en vrijheden zijn volgens mij ook weer twee verschillende dingen. Zeker omdat er geen enkele vorm van openbaarmaking plaatsvindt, maar slechts besloten overdracht en (beperkte) analyse. Dat betrokkenen de verwerking ook daadwerkelijk willen is eerder een criterium voor toestemming. Er kan natuurlijk wel (succesvol) bezwaar worden gemaakt, want dan ligt de lat hoger voor het stellen van een eigen zwaarwegend belang. Maar in algemene zin lijkt me impliciete toestemming van de betrokkene geen fundamenteel recht of privacybelang, of zie ik ook dat verkeerd?

        1. Waarom is het ondernemers/winstbelang van de verkopende partij onvoldoende?

          Voor mij is privacy een zwaarwegend grondrecht, omdat het heel diep raakt aan het menszijn. Geld kunnen verdienen is ook een grondrecht, maar het voelt als een ander niveau. Ik kan het niet goed onder woorden brengen, maar denk aan het vergeetrechtarrest waarin het HVJ zegt dat privacy in beginsel zwaarder weegt dan vindbaar zijn in Google.

          Binnen de AVG kom je inderdaad snel uit bij de belangenafweging (artikel 6 sub f AVG) maar ik zou eerst eens de vraag van rechtmatigheid en behoorlijkheid (artikel 5 sub a) beantwoord willen hebben. Vinden we dit soort handel inderdaad ten principale maatschappelijk aanvaardbaar? Moet dit überhaupt kunnen?

          Binnen de belangenafweging zou daarbij voor mij nog meespelen waarom je niet gewoon toestemming vraagt, dat is toch geen ongebruikelijke handeling bij stockfotografie/reclamefotografie.

          Dat niet willen en geschaad worden in je fundamentele rechten en vrijheden zijn volgens mij ook weer twee verschillende dingen.

          Klopt, maar dat niet willen komt hier voort uit dat grondrecht met rust gelaten willen worden. Het is ongebruikelijk en daarmee niet erg behoorlijk dat je zonder medeweten wordt gefotografeerd en dat je gezicht dan terugkomt op een product of in reclame. Oké, dat speelt nog niet bij enkel de databankhandel, maar die handel gebeurt uiteindelijk omdat iemand die foto wil publiceren, toch?

          Maar in algemene zin lijkt me impliciete toestemming van de betrokkene geen fundamenteel recht of privacybelang, of zie ik ook dat verkeerd? Dat zie je goed, er is geen algemeen recht dat zegt dat toestemming nodig is bij verwerking van persoonsgegevens.

          1. Voor mij is privacy een zwaarwegend grondrecht, omdat het heel diep raakt aan het menszijn. Geld kunnen verdienen is ook een grondrecht, maar het voelt als een ander niveau. Ik kan het niet goed onder woorden brengen

            Ja, maar zo zijn er bij privacy ook verschillende niveaus. Naam en leeftijd zijn dingen om heel wat minder paniekerig over te doen dan een bezoek aan de geslachtsziektenkliniek.

            Ik wil niet voor Thomas spreken, maar ik denk dat hij bedoelt ‘is het nu werkelijk zo erg als jouw foto, anoniem, in een trainingsset voor gezichtsherkenning wordt gebruikt?’ Wat is de schade?

            Moet de worst-case consequentie en de mate van anonymisering niet ook meegewogen worden in een belangenafweging?

            Er is wel wat voor te zeggen, vind ik, dat dit geval beschouwd dient te worden als een potentieel licht ongemak voor de betrokkenen, en niet als het schaden van je fundamentele rechten en vrijheden.

          2. ik zou eerst eens de vraag van rechtmatigheid en behoorlijkheid (artikel 5 sub a) beantwoord willen hebben.

            Rechtmatigheid is gegeven met de geslaagde belangenafweging, maar behoorlijkheid zat ik ook nog over in de kronkels. Is het inderdaad niet gewoon onbehoorlijk om zonder iemands goedkeuring in zijn gegevens te handelen?

            Dat zou kunnen, maar het is al een onderwerp van maatschappelijke discussie en aankomende wetgeving (zie bijvoorbeeld: Draft Digital Content Directive over betalen met je data). Aangezien ons moderne internet bovendien feitelijk draait op datahandel denk ik niet dat je op dit moment kunt stellen dat er enige consensus is dat datahandel categorisch onbehoorlijk of onwenselijk is.

            Over waarom er geen toestemming gevraagd wordt ben ik het met je eens, het lijkt een veel gepaster middel onder de omstandigheden. Of dit echt doorslaggevend is weet ik echter niet, als je hier nog inzichten over hebt hoor ik het graag.

            Oké, dat speelt nog niet bij enkel de databankhandel, maar die handel gebeurt uiteindelijk omdat iemand die foto wil publiceren, toch?
            Hoezo moet dat het geval zijn? In casu is reeds openbaar toegankelijke data gebruikt voor machine learning doeleinden. Of dat legitiem is laat ik even in het midden, maar ik vermoed zo dat het nog best wel meevalt met de feitelijke privacy impact. Ook in Nederlandse rechtspraak omtrent het vergeetrecht lijkt het onmisbaar om meer dan een abstract belang in je privacy te stellen, wat ik hier toch echt mis. Het feit dat je via Google gevonden kan worden heeft bijvoorbeeld een duidelijk meetbare impact, maar het algemene ‘dat vindt ik niet leuk’ gaat het volgens mij echt niet redden in die belangenafweging.

            Overigens wil ik nogmaals benadrukken dat in het stelsel van de AVG ‘vindt ik niet leuk’ gewoon wordt ondervangen in het recht op bezwaar, ik vermoed o.a. voor precies dit soort gevallen. Mits de betrokkene dus daadwerkelijk voldoende is geïnformeerd mogen ze daarna zelf wel beslissen of ze het OK vinden of niet, maar om deze afweging categorisch vooraf tegen elke vorm van handel uit te laten vallen gaat me nog steeds te ver.

            1. Rechtmatigheid is gegeven met de geslaagde belangenafweging, maar behoorlijkheid zat ik ook nog over in de kronkels.

              Dat gaat iets te makkelijk: ‘rechtmatigheid’ betekent meer dan enkel ons “het is wettelijk geregeld”. Het is “fairly and lawfully”, dus ook iets van fairness, netjes, normaal. Ik sluit aan bij 6:162 BW: maatschappelijke zorgvuldigheid. Iets raars doen waar je de belangenafweging bij rond krijgt, zou in mijn optiek nog steeds op gespannen voet met de rechtmatigheid moeten zijn. Maar taalkundig kun je ’t dan ook onder de behoorlijkheid gooien. Het hoort niet, maatschappelijk gezien. Het mag op papier maar het hoort niet, dus mag het niet.

              Aangezien ons moderne internet bovendien feitelijk draait op datahandel denk ik niet dat je op dit moment kunt stellen dat er enige consensus is dat datahandel categorisch onbehoorlijk of onwenselijk is.

              Pertinent mee oneens. Dat een praktijk breed voorkomt, maakt ‘m nog niet maatschappelijk aanvaardbaar. Men komt ermee weg omdat het zo ondoorzichtig is dat de meeste mensen er geen heisa over maken – en als particulier kun je er ook weinig tegen doen. Maar elke keer als een reportage iets laat zien over datahandel, staat men op de achterste benen.

              1. Maar taalkundig kun je ’t dan ook onder de behoorlijkheid gooien.

                Ik denk dat je dat juridisch ook wel zult moeten, getuige de noodzaak van uniforme uitleg van dat begrip binnen de EU. Het staat er bovendien niet voor niets, er promoveert zelfs binnenkort iemand op de uitleg van het behoorlijkheidsbegrip in de AVG. Misschien interessant om dit later nog een keer op te pakken? Ben zelf erg benieuwd namelijk.

                Maar elke keer als een reportage iets laat zien over datahandel, staat men op de achterste benen.

                Sorry Arnoud, maar volgens mij weet je echt wel beter dan dergelijke ophef aan te halen als argument. Hoeveel van die ‘geschrokken’ mensen vindt het namelijk ernstig genoeg om hun gedrag ook maar een beetje aan te passen? Hoeveel van hen denk je dat werkelijk zou kiezen om te betalen met geld in plaats van hun data? En als laatste, hoe zit het met het met de enorme aantallen gebruikers die het echt gewoon niets boeit? Ik weet niet hoe het met jou zit, maar de meeste ‘gewone’ mensen die ik ken boeit het echt oprecht niets.

                Sterker nog, de praktijken zijn (net als zoveel onsmakelijke dingen) de facto maatschappelijk aanvaard. Beantwoording van de vraag of en hoe wij deze praktijken wenselijk vinden moet dan maar op democratische wijze (vaak via de wetgever) gaan plaatsvinden. Precies die vraag staat nu zelfs op EU niveau op de agenda, met o.a. een richtlijn over het betalen met je data. In ieder geval lijkt er wat mij betreft op dit moment geen juridisch relevante consensus om je op te beroepen, en is dit vraagstuk wat mij betreft veel te complex om via de AVG elke vorm van datahandel categorisch te verbieden.

                Overigens Arnoud, voor zover dat nog niet duidelijk was, deel ik je opvatting over de wenselijkheid van dit soort praktijken. Maar juridisch ben ik nog steeds niet overtuigd dat de AVG zich daar bij voorbaat tegen verzet, of dat nou goed of fout is.

  8. Wat ik hier in de discussie zie is hoe mensen zich moeten aanpassen cq leven naar het rechts/ juridisch syteem en hoe wij ons aanpassen.

    Volgen mij moet het rechtssysteem in dienst staan van de mensen en de samenleving.

    Wat dus inhoud dat ‘we’ met zijn allen ons aanpassen aan de overheid terwijl dat juist andersom moet zijn, want wij hebben ze gekozen voor wat ze voor ons zouden moeten doen. Want dat is samenleven en niet een ‘vrijwillig’ dictatorschap.

    Want wat is nu zie is zoiets als je geeft een kind vanaf dag 1 dat het geboren word een klap, elke dag. En op een gegeven moment als je het vergeet vraagt dat kind daarom. Dat is waar we in leven in NL

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.