Het onderbelichte probleem van dataverzameling in de artificial intelligence

| AE 9913 | Innovatie | 14 reacties

Bewerking/parodie van XKCD, bron https://xkcd.com/303/Jaja, vrijdag wordt machine learning/AI dag, maar ik vond vrAIdag zo’n rare hashtag. Deze week een netelige en vaak onderbelichte kwestie: hoe kom je aan je data? Veel mensen denken dat het bij AI vooral gaat om het bouwen van het netwerk, maar dat is in feite niet meer dan op de “Generate” knop drukken en het ding een nachtje laten stampen. AI als technologie is vrijwel een commodity. Het gaat erom wat je erin stopt, want dat bepaalt voor vrijwel 100% wat eruit komt. En daar zit hem het probleem.

AI en big data lijken als hype hand in hand te zijn opgekomen. En dat is niet gek, want AI is in feite weinig meer dan statistische analyse op grote datasets, en hoe groter de dataset, hoe accurater de uitkomsten van de analyse. Dus als je gigantisch veel data hebt, dan krijg je behoorlijk goede resultaten. Maar hoe kom je aan die data?

Er zijn grofweg twee manieren: je kunt alle data zelf verzamelen, of je kunt datasets van anderen betrekken. De eerste manier is behoorlijk duur en tijdrovend, en werkt eigenlijk alleen bij de grote platforms zoals Facebook die nu eenmaal heel veel mensen hebben die data genereren. Of onderzoeksinstellingen die grootschalige metingen kunnen doen op allerlei fenomenen. Voor veel partijen is er alleen de tweede manier: zie ergens een dataset te pakken te krijgen.

Die tweede manier is nog behoorlijk problematisch. Vanwege rechtenkwesties en natuurlijk de zorg over persoonsgegevens in de data wordt vaak teruggegrepen op publieke datasets. Uit een recent paper blijkt echter dat dit goed kan leiden tot bias in de AI. Zo is er een publieke dataset van 1,6 miljoen interne e-mails uit het controversiële bedrijf Enron, welke vanwege justitieel onderzoek openbaar zijn geworden. Deze zijn een mooie dikke dataset om sentimentanalyse te doen, grammatica te leren herkennen en ga zo maar door. Maar goh, wat voor voorbeeld neem je als je de mails gebruikt van een Texaans bedrijf dat omviel vanwege gigantische fraude?

Andere systemen worden gebouwd op basis van stokoude bronnen, zoals publiekdomeinboeken omdat je dan auteursrechtelijk veilig zit. Maar het doet nogal wat met een systeem of je hem traint op Charles Dickens dan wel Dan Brown (om mevrouw Van der Plas niet weer te noemen 😉 ). Taalgebruik zal verouderd zijn, en vooral: ook hier een grote kans op vooringenomenheid qua wereldbeeld.

En daar zit dus in de kern het probleem: de datasets waar iedereen mee kan werken, zitten scheef en leveren dus geen betrouwbare basis op voor een AI systeem dat aanbevelingen of beslissingen doet. En waar je mee zou moeten werken, zit opgesloten achter auteursrechten of is onbereikbaar omdat de eigenaar het als privé beschouwt.

Arnoud

Ik heb een AI gemaakt die NDA’s kan reviewen

| AE 9766 | ICTRecht blog, Innovatie | 17 reacties

De blogs over legal tech van de afgelopen tijd waren voor diverse mensen (hoi) speculatie: ben je iets aan het doen op dat gebied? En jawel, dat klopte: ik heb een AI gemaakt die NDA’s reviewt, en ze heet NDA Lynn. Ze is gratis en geeft deskundig en praktisch advies of je dat geheimhoudingscontract moet tekenen of niet.

De NDA of geheimhoudingsovereenkomst is een standaardding in veel zakelijke transacties, met name in de high-tech sector. (Ik zag eens de term “Silicon Valley Handshake” voorbij komen voor het ritueel van elkaars NDA tekenen voor je koffie ging drinken.) Grofweg is het een heel standaard document: we gaan praten, we houden dingen geheim en pas na X jaar mag je erover praten, oh ja en let op je beveiliging. Maar uiteraard is elke NDA weer wat anders, dus je blijft lezen elke keer.

Natuurlijk kun je elke keer naar een advocaat of jurist en vragen om een review, maar dat kost geld. Voor zo’n standaardding voelt dat niet als de moeite waard, is mijn ervaring. En ook voor de reviewende jurist is het niet perse leuk werk: ik denk dat ik in de bijna 20 jaar dat ik dit werk doe, meer dan 1500 NDA’s heb gereviewd, en ik kan je zeggen – weinig dingen zo saai en onproductief als daarover steggelen.

Een AI heeft daar allemaal geen last van. Vandaar NDA Lynn. Ze is een support vector network (mede mogelijk door het fantastische BigML.com) dat getraind is op een grote hoeveelheid publiek beschikbare NDA’s, en de clausules daaruit kan herkennen en classificeren. De uitvoer wordt gekoppeld aan een adviestabel, en zo komt ze tot de conclusie van tekenen of niet. Wie alles over de opzet wil weten, kan dit paper lezen.

Ongetwijfeld zullen er fouten in NDA Lynn zitten, het is en blijft software. Maar het is in ieder geval beter dan die dingen handmatig blijven reviewen, of blind tekenen omdat er “MUTUAL NON-DISCLOSURE AGREEMENT” op pagina 1 staat.

Ik ben heel benieuwd wat jullie van haar vinden.

Arnoud

Wanneer heeft een kunstmatige intelligentie auteursrecht op een filmscript?

| AE 9402 | Auteursrecht | 16 reacties

Een kunstmatige intelligentie (AI) schrijft alle tekst voor David Hasselhoff in een nieuwe korte scifi-film, las ik bij Tweakers. De AI heeft een grote databank met filmteksten, en componeert daarmee nieuwe combinaties (via een LSTM) die acteur David Hasselhoff dan uitspreekt. Wat de vraag oproept, van wie zijn die teksten eigenlijk?

Hoofdregel uit de auteurswet is dat de partij die een creatief werk maakt, daar het auteursrecht op heeft. Het gaat dan om de natuurlijk persoon die het werk maakt, of in voorkomende gevallen zijn werkgever. Een opdrachtnemer zoals een ingehuurde programmeur, fotograaf of tekstschrijver heeft dus zélf het auteursrecht en niet zijn opdrachtgever.

Daar hebben we alleen niet heel veel aan in dit geval, want een AI is geen natuurlijk persoon. De wet erkent robots en software niet als personen.

Een eerste gedachte is dan, dan zal de programmeur van Benjamin wel de rechten hebben. De robot is dan zeg maar een heel slim toetsenbord met automatisch aanvullen of zelf scherpstellende camera met volgsysteem of iets dergelijks, daarvan vinden we ook niet dat die zelf auteursrechten hebben.

Ergens voelt dat alleen een beetje té makkelijk. Er zit ergens een fundamenteel verschil tussen afmaken wat een mens in gang zetten of een geautomatiseerde standaardhandeling enerzijds en een onverwachte creatieve uiting van een geavanceerd neuraal netwerk? Want niet te ontkennen valt dat die Benjamin érg creatieve uitingen doet, waar die programmeur vooraf totaal geen uitspraken over had kunnen doen. Als een werk zó onvoorspelbaar tot stand komt, is het dan nog wel logisch dat de rechten op dat werk bij de schepper van de software komen te liggen?

(De techniek komt er heel kort gezegd op neer dat het netwerk leert welke woorden typisch volgen op een bepaald woord, en dan vervolgens los gaat op een startzin of -woord. Ongeveer zoals een vrije-associatieoefening bij brainstormen. Je kunt je dus zelfs afvragen óf er wel creativiteit in het werk zit, als het alleen maar is “na ‘de’ komt meestal ‘hond'”.)

Arnoud

Kunstmatige intelligentie kan uitspraken Europees Hof Mensenrechten voorspellen

| AE 9033 | Innovatie | 15 reacties

Nou nou, poe poe. Een AI systeem ontwikkeld aan de University College London, the University of Sheffield, and the University of Pennsylvania kan uitspraken van het hoogste Europese mensenrechtenhof voorspellen, las ik bij Ars Technica. Men had het systeem 584 uitspraken gevoerd en op basis daarvan wist het in 79% van de gevallen correct de… Lees verder

Mag je een kunstmatige intelligentie klonen via zijn API?

| AE 8991 | Innovatie | 20 reacties

Het stelen van een AI is eenvoudiger dan je denkt, las ik bij Wired. Hoewel de algoritmes voor zelfdenkende en -lerende systemen uiteraard als supergeheim en bizar waardevol gezien worden, blijkt het mogelijk de werking vrijwel exact te repliceren. Mag dat? De basis van vrijwel alle zelflerende systemen is in principe hetzelfde. Je voert het… Lees verder

Moeten we de aansprakelijkheid van autonome auto’s aan advocaten overlaten?

| AE 8740 | Aansprakelijkheid, Innovatie | 38 reacties

Bergen rechtszaken zijn de belangrijkste hobbels (haha) waar de zelfrijdende auto overheen zal moeten zien te komen, las ik in Slate. Zolang de aansprakelijkheid van eigenaar, passagiers en fabrikant niet duidelijk zijn, zal de adoptie van deze voertuigen onnodig langzaam blijven lopen. Hoe lossen we dat op bij zoiets snel evoluerends als autonome auto’s? Simpel,… Lees verder