“Zo laat je de data van miljoenen openbare profielen in jouw voordeel werken”

Nee, niet mijn clickbaittitel: “A.I., losgelaten op openbare profielen, kan dan uitkomst bieden” las ik in een advertorial bij Werf&. Velen vroegen mij hoe dat kan, anoniem en AVG-compliant zoeken naar mensen die passen bij je vacature.

De kern, zo legt het bedrijf zelf uit:

Steeds meer mensen zetten hun profiel op ‘openbaar’ op platformen zoals LinkedIn, omdat zij zichtbaar willen zijn voor iemand die naar hen op zoek is. Deze informatie kun je geanonimiseerd gebruiken om algoritmes op te trainen. A.I. kan vervolgens suggesties geven voor objectieve en onbevooroordeelde matches, die talentverspilling tegengaan.
Dat is een mooie pitch, maar ik hóór collectief de wenkbrauwen omhoog gaan bij alle CAICOs en FGs. Want data echt anonimiseren in de zin van de AVG is niet triviaal. Vrijwel altijd bedoelt men “pseudonimiseren”, oftewel we hebben de direct herleidbare gegevens eruit gehaald en een volgnummertje teruggezet, maar wij kijken heus echt niet naar de bronlijst met volgnummer.

Hoe werkt het hier?

Daarom hebben wij alle identificerende data uit de trainingsdata verwijderd. We slaan dus géén persoonsgegevens en potentieel discriminerende informatie (zoals leeftijd en gender) op. Ook bezitten we geen bedrijfsnamen om te voorkomen dat iemand door de functie bij het bedrijf op te zoeken, toch herleidbaar zou zijn. We houden alleen die data over die noodzakelijk zijn om onze op A.I.-gebaseerde matchingtechnologie zo goed mogelijk te kunnen trainen.
Kennelijk is het AI systeem gericht op het extraheren van vaardigheden uit profielen, en ik zie wel hoe je persoonsgegevens daar niet bij nodig hebt. Dan zoek je naar beschrijvingen, labels, professionele lidmaatschappen en ga zo maar door. Het zoekproces is dan een stuk gerichter, omdat je dan veel meer vaardigheden (skills) hebt om mee te filteren.

Alleen: hoe krijg je vervolgens de profielen of contactgegevens van die personen te pakken? Dat gaat zo:

Vergelijkbaar met de bekende zoekmachines, maar dan gericht op openbare zakelijke profielen. … Hiervoor hebben we een gerichte search engine ontwikkeld, met zo’n 7 miljoen actueel openbaar gedeelde profielen in Nederland. Uniek is dat we daarbij matchen op de waarschijnlijk aanwezige en benodigde skills. … We slaan overigens geen contactgegevens op, zelfs niet indien deze openbaar toegankelijk zijn gemaakt op het profiel. Je kunt dus alleen contact opnemen via het platform waarop het profiel oorspronkelijk openbaar is gedeeld.
Dit klinkt als een zoekmachine gebaseerd op netwerksites zoals Linkedin, waar je op basis van skills in zoekt in plaats van trefwoorden. Vervolgens word je met een link naar de bronsite gebracht, waar je dan zelf contact opneemt met de persoon.

De AVG aspecten zitten daarmee enerzijds in het scrapen van die data om daar een AI model mee te trainen, en anderzijds in het doorzoekbaar maken van de data met een skills-zoekmachine.

Dat scrapen (even los van de Linkedin-voorwaarden) is AVG-technisch een verwerking, die je alleen kunt rechtbreien op grond van gerechtvaardigd belang. Ja, direct marketing staat in overweging 47 maar de vraag is of het proportioneel is en opweegt tegen de privacybelangen van de betrokkenen.

Ik zie ergens wel hoe “tot trainingsdata omwerken en daar een AI model van maken” hier in past. Zo’n algemeen zoals hier model raakt jouw privacy niet, en ‘doet’ verder niet direct iets met jouw persoonsgegevens. Zo’n label met een skill is op zich als persoonsgegeven te zien áls het aan een persoon zit, maar het label wordt hier niet op basis van persoonskenmerken gegeven.

Lastiger is het AVG verhaal voor de zoekmachine. Die verwerkt gewoon persoonsgegevens: je krijgt een profiel op basis van opgegeven skills, dat profiel is ook verbonden met zelf afgeleide skills én de link naar de bron (zoals het Linkedinprofiel) staat er bij. Dan voorzie je mensen dus van labels (“is harde werker”, “kennis van ISO42001”) en dát is gewoon waar de AVG voor bedoeld is.

Valt die zoekmachine dan onder een gerechtvaardigd belang? Dat zie ik niet meteen. Het hele idee van deze zoekmachine is mensen vinden op basis van skills, om ze vervolgens te benaderen voor werving en selectie. Vanuit de Telecomwet weten we dat zulke communicatie toestemming vereist, maar iedereen weet ook dat die zelden gezocht wordt. Zo’n zoekmachine zal dat dus aanjagen, en dat maakt de belangenafweging neigen naar “niet proportioneel”.

Daar staat natuurlijk tegenover dat op platforms zoals Linkedin je zelf kiest of je open staat voor communicatie van onbekenden (en/of je 06-nummer onder je naam opneemt), en dat men uiteindelijk via de Linkedin-faciliteiten contact opneemt. Dat kan leiden tot overlast, maar omdat de dienst hier achter een betaalmuur zit en vrij nieuw is, is dat een tikje speculatief.

Arnoud

 

14 reacties

  1. Over de proportionaliteit in die belangenafweging; als iemand zijn of haar CV met dat soort informatie online zet en het zo instelt dat het gelezen kan worden, is dat dan niet omdat ze op zoek zijn naar een nieuwe baan, of op z’n minst open staan voor een nieuwe baan? En als dat zo is, zit daar dan niet een soort impliciete toestemming voor verwerking in? Hoe is dat van invloed op die belangenafweging?

    Ik zit niet op LinkedIn dus ik weet niet precies wat je kan instellen, maar het lijkt mij dat als je je CV daar upload en leesbaar zet je het niet raar moet vinden als bedrijven je benaderen.

    1. Op Linkedin zet je niet direct je CV neer maar vul je diezelfde data in. Je kunt ook invullen waar je voor open staat en dus gecontacteerd wil worden. Als jij kiest voor “looking for new job” dan is het in die context normaal dat je benaderd wordt door recruiters. Ik twijfel of je dat “toestemming” mag noemen in de zin van de AVG, maar vanuit de huisregels van Linkedin en de gerechtvaardigd-belang analyse is dit wel legaal.

    2. Er is een verschil in een Linkedin profiel, en een eentje die ook op zoek is naar een baan, je kunt ook aangeven op je Linkedin profiel dat je op zoek bent naar een baan, wat je zichtbaarheid verhoogt, maar ook de hoeveelheid onzinnige berichten die je krijgt van recruiters e.d.

      Waar ik me dan zorgen om maak is dat als die gegevens eenmaal gescrapet zijn, je de controle erover compleet kwijt bent. Dus zelfs als je dat een goed idee zou vinden op het moment dat je hard op zoek bent naar een baan, kun je daarna moeilijk weer terug.

      En het gaat dus expliciet niet om een gestructureerde CV die men analyseert maar om het extraheren van alle informatie uit een Linkedin profiel. Je kunt daar best veel details in kwijt over je competenties, werkervaring, etc.

    3. Impliciete toestemming onder de AVG? Als LinkedIn-gebruiker heb ik een overeenkomst met LinkedIn. Ik zou het uiterst vreemd vinden als er uit mijn aanwezigheid daar toestemming aan een derde afgeleid kan worden – ik ben immers helemaal niet bekend met alle scrapende partijen (die m.i. per definitie zelf verwerkingsverantwoordelijke zijn).

      Overweging 42:

      Indien de verwerking plaatsvindt op grond van toestemming van de betrokkene, moet de verwerkingsverantwoordelijke kunnen aantonen dat de betrokkene toestemming heeft gegeven voor de verwerking. Met name in de context van een schriftelijke verklaring over een andere zaak dient te worden gewaarborgd dat de betrokkene zich ervan bewust is dat hij toestemming geeft en hoever deze toestemming reikt. In overeenstemming met Richtlijn 93/13/EEG van de Raad stelt de verwerkingsverantwoordelijke vooraf een verklaring van toestemming op in een begrijpelijke en gemakkelijk toegankelijke vorm en in duidelijke en eenvoudige taal; deze verklaring mag geen oneerlijke bedingen bevatten. Opdat toestemming met kennis van zaken wordt gegeven, moet de betrokkene ten minste bekend zijn met de identiteit van de verwerkingsverantwoordelijke en de doeleinden van de verwerking van de persoonsgegevens. Toestemming mag niet worden geacht vrijelijk te zijn verleend indien de betrokkene geen echte of vrije keuze heeft of zijn toestemming niet kan weigeren of intrekken zonder nadelige gevolgen.

      1. Deel van je overeenkomst met Linkedin is volgens mij dat je je openstelt voor (bepaalde) andere gebruikers om jou te benaderen. Dat is inherent aan het concept sociale media, zou ik zeggen. Linkedin biedt je controls om dat open staan te beheren. Maar als jij een contactknop hebt, dan mag ik daarop drukken. En als jij “open to job offers” hebt aangevinkt, dan mag ik jou een job offer doen.

        Dit is inderdaad anders bij scrapende partijen, die activiteiten (en de data daaruit) vallen buiten de overeenkomst die jij bij Linkedin hebt.

        1. Om verwarring weg te nemen: Het gaat hier alleen over die profielen, waarvan mensen bewust hebben gekozen deze publiek te delen (er staat duidelijk bij: je komt in zoekmachines zoals Google, Bing, etc.). Het gaat dus niet over alle LinkedIn profielen (schatting 10 miljoen in NL). De meeste mensen kiezen hier voor (schatting 7 miljoen in NL). Bewuste keuze dus, om gevonden te willen worden buiten LinkedIn. Deze zoekmachine faciliteert dat, net als Google, Bing, etc. faciliteren. De LinkedIn voorwaarden zijn irrelevant, omdat de gebruiker zijn informatie openbaar (buiten LinkedIn) deelt. Diegene die gegevens ontvangt, gaat geen verbinding met LinkedIn aan. Je vind de gegevens zonder in te loggen op LinkedIn.

  2. De zoekmachine doet toch niets anders dan wat Google met zijn zoekmachine doet? Alleen de prompt (vrije tekst bij google vs een meer gestructureerde prompt gericht op skills bij deze partij) is anders. Waarom is de zoekmachine van Google dan AVG technisch geen probleem? Of is het dat wel?

    1. Deze ‘zoekmachine’ kopieert het LI profiel en verrijkt, past aan, voegt toe, verwijdert ‘overbodige’ data, en verkoopt de toegang aan derde partijen zodat zij deze subjecten ongevraagd kunnen benaderen voor een commercieel (arbeids)aanbod. – volgens mij is dit a) geen zoekmachine en b) precies wat het AVG juist verbiedt

      1. Dit is precies wat alle zoekmachines doen. De informatie kopiëren (scrapen/spideren zijn synomiemen voor de informatie lokaal opslaan), indexeren (herstructureren), voorzien van zoekwoorden (in dit geval skills, maar kan van alles zijn) en toegankelijk maken. Daar kunnen allerlei verdienmodellen aan gekoppeld zijn, dat is niet relevant. De kern is, je maakt beter toegankelijk, wat iemand zelf toegankelijk wil maken. Deze profiel zoekmachine past daar bovendien nog minimalisatie van gegevens aan toe.

        Als dit niet zou mogen, mag er geen een zoekmachine meer mogen en werkt het Internet niet meer.

        P.S. Voor de duidelijkheid: het gaat alleen over die profielen, waarvan mensen bewust hebben gekozen deze publiek te delen (er staat duidelijk bij: je komt in zoekmachines zoals Google, Bing, etc.) niet over alle LinkedIn profielen. De meeste mensen kiezen hier voor. Bewuste keuze dus, om gevonden te willen worden.

        1. Publiek delen van informatie is absoluut geen vrijbrief om die data te verwerken. Laat staan de hoeveelheid en schaal van verwerking waarmee jullie het doen en verkopen.

          Daar heeft NIEMAND op LI toestemming voor gegeven.

          Je vergelijking met een zoekmachine gaat volledig mank: een zoekmachine hoort de integriteit van de zoekresultaten te waarborgen: door jullie aanpassing van die profielen en het gieten in je eigen database, interface, etc en het kwalitatief beoordelen en scoren door een onbekende AI engine (!) ben je voor zowel het datasubject als voor de gebruiker allang geen zoekmachine meer.

          Sterker nog: dat is de basis waartegen AVG juist hoort te beschermen.

          1. Ik zeg niet dat publiek delen een vrijbrief is om data te verwerken. LinkedIn heeft het keurig omschreven:

            https://www.linkedin.com/help/linkedin/answer/a1340507/?trk=publicprofile-settingslearn-more&lang=en

            Two of LinkedIn’s goals are to help members be found for opportunities and to facilitate better informed professional communications, both on and off the site. For example, public profiles can be found through search engines. In addition, users of certain mail or other communication or networking services may also see in those services “mini” profiles of members they interact with.

            LinkedIn gaat dus uit van consent van hun gebruiken om hen in zoekmachines te laten worden opgenomen. Dat consent gebruiken wij in onze belangenafweging om hun data te anonimiseren voor AI training hen vindbaar te maken in onze search engine.

            We bieden een zoekmachine net als alle andere. Profielen worden opgeslagen en krijgen een voorvertoning in een eigen interface, om gelijk door te verwijzen naar de bron. Iedere zoekmachine beoordeelt een profiel op relevantie voor de zoekopdracht, en voegt kenmerken toe om dat snel te kunnen doen.

          1. LinkedIn gaat in haar user beleid er vanuit dat mensen die een account aanmaken vindbaar willen zijn. Zie: https://www.linkedin.com/help/linkedin/answer/a1340507/?trk=publicprofile-settingslearn-more&lang=en Die consent gebruiken wij vervolgens in belangenafweging: dienen wij de belangen van de gebruiker voldoende ten opzichte van ons belang om de arbeidsmarkt te ontsluiten. Het antwoord daarop is volstrekt ja. Door meerdere juristen bevestigd als een valide werkwijze. Wij gaan deze ook aan Arnoud voorleggen, zodat het laatste beetje onzekerheid in deze blog ook kan worden weggenomen.

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.