De Italiaanse privacytoezichthouder GPDP heeft vandaag chatbot DeepSeek verboden om naar eigen zeggen de privacy van gebruikers te beschermen. Dat meldde Security.nl onlangs. De Ierse, Belgische en Franse privacytoezichthouders hebben DeepSeek daarnaast om opheldering gevraagd over de manier waarop gegevens van gebruikers worden verwerkt.
Op 10 januari lanceerde het Chinese bedrijf Hangzhou DeepSeek AI haar taalmodel DeepSeek-R1. De eerste reacties waren verbijstering: het model is een stuk kleiner en goedkoper om te produceren, maar levert met GPT-4o vergelijkbare resultaten. De aandelenkoers van AI-trainingschipsmaker Nvidia crashte direct bijna 10 procent, al trok dat snel bij.
Vlak daarna gingen mensen de voorwaarden lezen, en bleek dat het bedrijf alle invoer mag gebruiken om het AI model te trainen en dat geheimhouding niet aan de orde is. Ook had het model een ingebouwde pro-PRC bias, naast de verplichte filters die je als internetdienstverlener in de PRC moet hebben.
Die bias daargelaten: heel bijzonder is dit niet, want alle grote Amerikaanse aanbieders doen dat ook. (Mijn kantoor doet onderzoek naar de juridische kwaliteit én compliance van die modellen, abonneer je op onze nieuwsbrief en je hoort de resultaten als eerste.) Maar voor veel Amerikanen is het nieuw dat een buitenlands bedrijf er met je data vandoor gaat, dus dat geeft de nodige ophef.
In Europa was er al langer ophef vanuit AVG-perspectief. Italië nam het voortouw door ChatGPT te verbieden, wat al vrij snel werd teruggedraaid na enkele optische maatregelen van het bedrijf. Het verbod op Deepseek is gebaseerd op dezelfde zorgen.
En ja, je kunt Deepseek ook lokaal hosten in Europa want het is een open weights model met een licentie die dat toestaat. Dan ben je vrij van de censuurfilter in de uitvoer en is data-doorgifte naar de PRC niet meer aan de orde. Securityzorgen en bias blijven een aandachtspunt.
Arnoud
Een locale DeepSeek server lijkt mij wel handig. Alleen komt daar best veel hardware bij kijken en is de kracht niet in de software maar in alle data die het systeem heeft verzameld. Er wordt veel gekletst over al dit soort software, maar men vergeet continu te kijken naar de vele datasets die online worden verhandeld. Datasets die soms vol gevoelige informatie zitten.
Natuurlijk schermen veel AI-bots persoonlijke informatie af in hun antwoorden. Dan krijg je b.v. de melding “Het spijt me, ik kan geen persoonlijke informatie over Arnoud Engelfriet verstrekken, zoals zijn burgerlijke staat en woonplaats.”. 😀
Natuurlijk is niet al die informatie betrouwbaar. Want als ik over mijzelf vraag, hoor ik: “n addition to his work at KATJE, Ten Brink is also a member of the board of directors of the Dutch software development association, Stichting Internet Domeinregistratie Nederland.”. Wow, dat is nieuw. 🙂
En “Ten Brink is a graduate of the University of Amsterdam, where he studied computer science.” Oh? Klopt niet helemaal. 🙂
Ook grappig dat mijn vraag in het Nederlands was en ik een Engels antwoord kreeg.
Nu is zo’n LLM ook niet bedoeld voor het verstrekken van dat soort informatie. Als je wil weten wie “Wim ten Brink” is (nog even afgezien van het feit dat er ongetwijfeld meerdere Wimmen ten Brink (Wims ten Brinks? Wat is het meervoud van Wim ten Brink?) zijn) dan moet je dat gewoon opzoeken via een zoekmachine. Een connected LLM zou de zoekopdracht wel kunnen opstellen, verfijnen of simpelweg doorsluizen. Voor het opzoeken van kale feiten zoals “wie zit er in de raad van bestuur van het SIDN” is het ook niet geschikt, het heeft nogal de neiging om te halicuneren.
Waar zo’n LLM wel geschikt voor is, is voor taken die je niet eenvoudig kan opzoeken, zoals “Help mij om een toespraak te schrijven waarin ik Wim ten Brink bij zijn pensioenering bedank voor zijn jarenlange dienstverband bij de SIDN”, of “Hier heb je vijf redenen waarom ik dit projectvoorstel niet steun, maak hier een bondig verhaal van geschreven in een zakelijke stijl”.
En uiteraard, daarna moet je alles zelf controleren.