data analyse Archives

Zoals u weet, lanceerde ik in 2017 lawyerbot NDA Lynn: een online dienst die geheimhoudingscontracten oftewel NDA’s screent en direct advies geeft. De dienst is populair, ondertussen heb ik meer dan 14.000 NDA’s verzameld en ze blijven maar binnenkomen. Je ziet enorme variatie in zo ongeveer elke clausule. Sommige NDA’s zijn één kantje, andere veertien. Lijstjes en clausules worden ook steeds langer, lijkt het wel. Dus toen kreeg ik de gedachte: hier moet ik eens een statistische analyse op loslaten en zien of ik terug kan vinden wat de eerste geheimhoudingsovereenkomst moet zijn geweest. En dat is me gelukt.

Dankzij digitale historische taalkunde is het mogelijk om op basis van tekstfragmenten een serie teksten te herleiden tot “het origineel”. Ik gebruik aanhalingstekens want zeker weten doe je dat natuurlijk nooit, maar als we uitgaan van de aanname dat juristen andermans werk copypasten en daar dan dingen aan toevoegen – dus niet weghalen, want waarom zou je iets weghalen – dan kun je van clausules de steeds langere versies als ‘jonger’ beschouwen. Maar daar staat tegenover dat ook oude advocaten breedsprakig konden zijn. Je moet dus op meer zaken letten.

Een voorbeeld: een praktijk die we de laatste tien à twintig jaar zien, is dat men werkt met afkortingen. Die herken je aan hun hoofdletters. Bijvoorbeeld:

“Confidential Information” means information disclosed by the discloser or its subsidiaries to the receiver in relation to the Purpose, which is identified as confidential, or which can reasonably be considered confidential due to its nature, or the circumstances surrounding disclosure.

Tevens zijn er duidelijke scheidslijnen op basis van andere toevoegingen te trekken, zoals dat op zeker moment exportwetgeving ineens “een ding” wordt, er Supreme Court arresten komen over “entire agreement” clausules en dat NDA’s op zeker moment vaker over elektronische kopieën gaan spreken. Door naar dat soort zaken te zoeken, kun je grofweg NDA’s van een datum voorzien. Als beginjaartal houd ik daarbij 1979 aan, omdat dat het jaar was dat de eerste ‘echte’ wetgeving omtrent trade secrets van kracht werd.

Vervolgens volg ik de technologie van Gerhard Jäger, die deze truc uithaalt bij Romaanse talen:

Computational approaches to historical linguistics have been proposed since half a century. Within the last decade, this line of research has received a major boost, owing both to the transfer of ideas and software from computational biology and to the release of several large electronic data resources suitable for systematic comparative work. In this article, some of the central research topic of this new wave of computational historical linguistics are introduced and discussed. These are automatic assessment of genetic relatedness, automatic cognate detection, phylogenetic inference and ancestral state reconstruction. They will be demonstrated by means of a case study of automatically reconstructing a Proto-Romance word list from lexical data of 50 modern Romance languages and dialects.

De details zal ik u besparen, maar het komt neer op vele avonden stampwerk van mijn computer, die lange en korte versies van formuleringen vergelijkt, een hoop geblader in juridische wikipedia’s en lang gepeuter in halve clausules om te zien welke versie waar van afgeleid is. Maar het is me gelukt, en u mag hieronder klikken voor het resultaat:

De Oer-NDA in al zijn glorie.
De methodologische verantwoording, dataset en ancestral state reconstruction diagrammen. Let op: groot bestand.

(Het echte nieuws is trouwens dat er kennelijk 14.000 keer een bedrijfsjurist of advocaat was die dacht, een NDA dat kan ik beter. Het is erger dan Javascript frameworks.)

Arnoud

Tag: data analyse

Dankzij mijn lawyerbot weten we nu eindelijk hoe de eerste geheimhoudingsovereenkomst eruit zag