Google wilde chatbot Bard deze week uitbrengen in EU, maar moet dat uitstellen

Google had zijn chatbot Bard deze week willen uitbrengen in de Europese Unie, maar heeft dat uitgesteld na zorgen over de verwerking van persoonsgegevens. Dat meldde Tweakers vorige week. De Ierse privacytoezichthouder kwam verrassend genoeg vóóraf met de vraag “hoe gaat u om met persoonsgegevens”, en omdat Google daar nog niet schriftelijk over nagedacht had, moet men nu de invoering uitstellen. Tot mijn verbazing ging het in de comments al snel over een gebrek aan innovatie in Europa en het doodslaan van open source. Ik mis even iets?

Dat Google zijn chatbot nog niet online heeft gezet in Europa, komt volgens Google-ceo Sundar Pichai door twee factoren.

“We werken bij Bard meer met Reinforcement Learning from Human Feedback om de lokale sentimenten goed op te kunnen nemen.” … Behalve dat Europa veel talen heeft met nuances in de culturen, speelt er meer. “Regels variëren tussen landen. We willen ervoor zorgen dat het allemaal klopt.” Die zorgen zitten vermoedelijk in het gebruik van de trainingsdata en privacy.

Die laatste opmerking blijkt dus juist: Google had geen antwoord paraat en vreest dan een handhavingsactie (zoals in Italië) met alle PR-negativiteit van dien.

De reacties zijn uitgesproken negatief, en mooi samengevat als “Jammer dus, en helaas typisch, dat in Amerika alle innovatie plaatsvindt terwijl Europa weer eens uit reflex de handrem aantrekt.” Want volgens mij gaat het hier om regelgeving vanuit een terecht standpunt: dat we de risico’s van nieuwe technologie gecontroleerd willen hebben, omdat ongecontroleerd gebruik leidt tot enorme schade. Dat ze in de VS het prima vinden dat je van alles en nog wat breekt zal best, maar dat maakt je niet innovatief volgens mij.

Afgelopen dinsdag verscheen een essay in Le Monde dat overtuigend betoogt dat juist Europa fors aan het innoveren is.

The flow of emerging high-tech companies is almost equal to that in the United States. Both regions now create the same amount of new start-ups each year. Thirty per cent of all global funding for early-stage companies went to European start-ups, compared with 36% for the US. This gap has halved in five years. What’s more, Europe is showing greater dynamism, with a compound annual growth rate of 24% over the last 10 years, compared with 4% in the US. At this rate, Europe will overtake the US in five years’ time.

Verder zie je ook in de AI-space steeds meer opensourceinitiatieven. En het mooie is: de strekking van de AI Act wordt volgens mij juist makkelijker gehaald door open source dan door dit soort bedrijfjes. Toon aan waar je data vandaan komt en dat die kwalitatief goed is. Als ik iets goed zie gaan bij open data initiatieven dan is het wel de focus daarop, zie hoe ze bij Wikipedia omgaan met copyvio en hoe openstreetmap ieder verkeersbord laat controleren om maar te voorkomen dat ze ergens databankrechten schenden. Ook bij datasets (zoals LAION) zie je duidelijke focus op rechtenbeheer.

Verder gaat veel over toepassingen, geen AI ongecontroleerd inzetten om mensenrechten te schenden of mensen automatisch af te serveren. Dat kan met OSS of closed even goed, dus daar zie ik het verschil niet. En ik zie juist bij de toepassingen enorm veel Haarlemmerolie (snake oil) van het soort “onze AI detecteert micro-expressies om te zien of een sollicitant liegt” met dan een gesloten model en geheime data zodat je niets kunt vaststellen. Als dát is waar de markt naartoe gaat, dan mogen de teugels best even wat worden aangetrokken.

Arnoud

5 reacties

“Regels variëren tussen landen. We willen ervoor zorgen dat het allemaal klopt.”

GDPR?

Beantwoorden

Nuttige reactie, +1! (2)

Afgelopen dinsdag verscheen een essay in Le Monde

De link van “essay” werkt niet (draft van artikel in url?)

Beantwoorden

Nuttige reactie, +1!

Arnoud Engelfriet schreef:

20 juni 2023 om 11:01

Excuses, ik heb de juiste link nu toegevoegd.

Beantwoorden

Nuttige reactie, +1!

Het probleem bij AI is niet dat we meer “open source” willen. Wat we nodig hebben is “Open Data” omdat de AI nog altijd getraind moet worden. Kun je mooie software gaan schrijven, maar zonder data is de bot zo dom als een zeekomkommer…

Maar, “Open Data” is een probleem als er in die data ook gegevens voorkomen die herleid kunnen worden naar personen. Ook al is die data een lijst van juristen met de naam “Arnoud” ertussen. Bekende data, maar desondanks toch een persoonsgegeven waarvan je wilt weten waar deze vandaan komt.

Een site als haveibeenpwned heeft eigenlijk ook allemaal persoonsgegevens in handen. Desondanks gaat de site er zorgvuldig mee om en vertelt het de herkomst van al die data. Maar de berg data die ze hebben kan best interessant worden om een AI mee te trainen om sites te hacken en meer wachtwoorden te stelen. Zeker als je naast de gebruikersnaam en wachtwoord ook alle namen, adressen en telefoonnummers in handen krijgt. En dat in combinatie met waar de data is gevonden.

Het OData protocol is een mooie standaard om data mee te delen, en zou dus door AI tools gebruikt kunnen (moeten?) worden om de datasets te delen waarmee de AI is getraind. Maar als daar dan persoonsgegevens in zitten, dan mag je dat misschien weer niet delen. Dus dat AI nou wel of niet open source is, is niet van belang in deze kwesties. Waar het om gaat is de data.

Beantwoorden

Nuttige reactie, +1!

Gelukkig werd bard.google.com wel met een VPN….

Beantwoorden

Nuttige reactie, +1!

5 reacties

Geef een reactie Reactie annuleren