Oh, had ik maar een enorme dataset met contracten #legaltechtuesday

Deze foto deed me denken aan een archief van een juridische afdeling waar ik eens kwam. Een kelder vól met contracten, en nog net ergens een lijst met welk contract waar lag (althans: zou moeten liggen). Gelukkig werd dat een paar jaar later vervangen door een CMS met ingescande PDFs. Maar nog steeds: vind maar eens het juiste contract, of zelfs die ene mooie clausule die perfect zou zijn in dit nieuwe contract.

Sindsdien bleef het me bezighouden, hoe je effectief met contracten omgaat. Het kan toch niet zo zijn dat je het elke keer helemaal opnieuw moet typen? Mede uit die frustratie kwamen mijn documentgeneratoren er, en dat werd het succesvolle dochterbedrijf JuriBlox.nl waar je nu niet alleen contracten maakt, maar ook beheert en zelfs realtime en op afstand onderhandelt.

Maar ik wil nóg een stap verder gaan. Computers kunnen contracten lezen. En ook adviseren en zelfs redigeren. Daarom bouwde ik NDA Lynn, die nu geheimhoudingscontracten kan lezen en binnenkort ook amenderen (zowel margin notes als echte redlines). Leuk spul, en in principe ook breder bruikbaar voor alle soorten contracten.

Alleen heb ik dan een levensgroot probleem. Het maken van de software om automatisch contracten te lezen en analyseren is niet het probleem. It’s the data, stupid: er moet een hele berg contracten in zo’n systeem voordat je er echt mee kunt werken. En dan ook nog eens goede; zomaar wat modelletjes van internet trekken levert niet de kwaliteit die je nodig hebt. (Dit is voor elk onderzoeksdomein waar, volgens mij.)

Helaas zijn er geen echt uitgebreide en goede open bronnen. Ik ken bijvoorbeeld Contract Standards, DocTailors en Tech Contracts, maar dat zijn slechts een handvol clausules per type. Oh en ze zijn erg Amerikaans natuurlijk.

Er zijn natuurlijk heel veel adviesbureaus en advocatenkantoren die bergen contracten hebben, maar die kunnen dat niet zomaar delen vanwege vertrouwelijkheid natuurlijk. Bovendien is ook één kantoor niet genoeg, je wilt een brede spreiding om de kwaliteit gelijkmatig en goed te krijgen. Maar hoe creëer je een markt voor zulke documenten?

Arnoud

12 reacties

  1. Geen idee hoor, maar kan dit met hulp van een community? Dat iedereen, evt. geanonimiseerde, clausules kan uploaden en die vervolgens naar X aantal anderen wordt gestuurd voor review. En misschien dat je iets kan doen met credit opbouw voor wie veel bijdraagt. En dat voor een X aantal credits een contract gratis of met korting gegenereerd kan worden?

    1. Dat vind ik een gaaf idee, je zet mensen meteen aan het werk ook door ze te vragen te labelen. Alleen, is dit de moeite waard voor de mensen die ik eigenlijk wil hebben: de inkopers en juristen met de stapel contracten? Zijn die credits waardevol genoeg om dit te gaan doen. Ik vrees dat ik toch gewoon met keiharde euro’s over de brug moet komen…

      1. Je gaf aan dat je de contracten van derden wilt gebruiken om een model te trainen. Dat zou niet mogelijk zijn vanwege de vertrouwelijkheid van die documenten. In plaats van de documenten zelf in een grote dataset op te nemen, kan je dan volstaan met die partij een stukje software te geven die een bijdrage voor een centraal model aanlevert (en daar enkele iteraties lang aanpassingen op levert). Het centrale model heeft dan alle “kennis” uit de gedistribueerde dataset, zonder dat je de vertrouwelijkheid van die documenten schaadt. Hoe je een en ander commercieel inricht staat dan los van de vertrouwelijkheid van de onderliggende documenten (in de praktijk zijn er nog wat andere hobbels waarschijnlijk).

  2. Zou het niet een idee zijn om een soort van twee-traps raket: – Medewerkers kunnen gratis hun contracten uploaden voor een beperkte scan, die hoogstens waarschuwd of iets in strijd is met het Nederlandse arbeidsrecht. In ruil daarvoor heb jij een extra contract om te indexeren – ZZP’ers en BV’s kunnen hun contracten gratis uploaden, en krijgen dan een beperkte scan in ruil voor het uploaden van hun contract. Als ze echter de volledige zet van juridische data willen, dan moeten ze betalen.

    Op deze manier geef je een beperkte hoeveelheid dienstverlening weg in ruil voor data, en klanten kunnen dan optioneel het hele product afnemen in ruil voor geld. Zolang dit helder gecommunicceerd wordt, en goed beveiligd is, zou ik hier geen bezwaren in zien.

    1. Goed idee. Dat is hoe NDA Lynn nu al werkt. Het probleem is vooral, je moet wel een werkend product hebben om mee te beginnen, anders kun je niets aanbieden waar mensen gratis een contractje in uploaden. Maar pas als genoeg mensen wat uploaden, heb je een goede basisset. Bij NDA Lynn ging dat goed omdat er genoeg NDA’s op internet te vinden zijn, en klanten prima bereid waren mij NDA’s te geven. Maar voor andersoortige contracten ligt dat ingewikkelder.

      1. En ik vermoed dat als je dat doet, je zomaar wel eens een auteursrechtprobleemje, en een AVG probleempje kunt hebben. De opsteller van het contract heeft vast geen toestemming gegeven voor het laten maken van een electronische kopie, en de tegenpartij heeft vast ook geen toestemming gegeven om zijn data gescand te zien.

  3. (disclaimer: ik misbruik dit forum nu om te pluggen waar ik op mijn werk mee bezig ben)

    Dit is een algemeen probleem, er is veel vertrouwelijke data (o.a. medisch, sociaal-economisch, bedrijfsgevoelig) die verschrikkelijk nuttig is, in elk geval voor de wetenschap (de doelgroep bij mijn werk). Zie als onderzoeker maar eens aan die data te komen. Uiteindelijk heb je vertrouwen nodig, maar technische oplossingen kunnen helpen. De oplossing waar ik nu naar kijk is om niet de data over de schutting te gooien, maar de analyse naar de data te brengen, en dan alleen het eindresultaat naar de onderzoeker. Er zijn meer van dat soort oplossingen, Personal Health Train (PHT) en de microdata facility van CBS werken op eenzelfde manier. PHT is zeer geschikt om een voorspelmodel van een ziektebeeld te maken door dit te het model te trainen aan de hand van patientgegevens die bij verschillende ziekenhuizen staat, en deze modellen te combineren tot een beter voorspelmodel. Je zou zo iets ook kunnen gebruiken met andere gegevens, zoals contracten.

  4. Je ziet tegenwoordig dat als je bij Randsomware niet betaalt, men je interne bestanden online zet. Zo ook hier waarbij men overeenkomsten van/met SpaceX, Boeing en Lockheed Martin online zet. Los van de vraag of ’t moreel (en uhm, juridisch?) verantwoord is om die te gebruiken, biedt dat wellicht ook nog een mogelijkheid om wat documenten te vinden?

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.