Populaire AI-tools geven juridische antwoorden vol fouten, joh wat dacht je zelluf

jambulboy / Pixabay

Chatbots van OpenAI, Google en Meta zijn zeer gevoelig voor ‘hallucinaties’ bij het beantwoorden van juridische vragen, zo las ik bij Advocatie. Men baseert zich op onderzoek van Stanford University, dat bij juridische vragen in driekwart van de antwoorden fouten vond. Fascinerend, maar het betekent hooguit dat je geen generieke chatbot voor een specifieke taak moet gebruiken.

Op voorhand ben ik altijd erg kritisch op onderzoeken die zich baseren op GPT-3.5, zeg maar de gratis versie van ChatGPT. De verschillen tussen 3.5 en 4 zijn echt enorm. Maar hier gaat het specifiek om de kwestie van juridische vragen in een algemeen taalmodel. En dan is het natuurlijk redelijk logisch dat daar rare, algemene antwoorden uit komen: al die juridische kennis zit niet in de dataset.

Maar belangrijker: generatieve AI is geen orakel dat antwoorden genereert op basis van een analyse van de vraag. Het zijn stochastische papegaaien, patroonzoekers die een leuk klinkende tekst produceren die redelijk aansluit op de invoerprompt. Of die vraag enige relatie heeft tot de werkelijkheid, is daarbij volkomen irrelevant.

Dit krijg je pas anders als je zo’n systeem voedt met specifieke juridische kennis, want dan kan het systeem in ieder geval de benodigde kennis reproduceren om het antwoord mee aan te kleden. Maar strak afstellen blijft noodzakelijk, zoals het DPD chatbot-incident laat zien.

Het probleem is dus eigenlijk fundamenteler: we gebruiken een tekstgenerator om antwoorden te zoeken. Dat is natuurlijk omdat die generatoren nu de hypewind mee hebben, maar eigenlijk is het raar. Er zijn genoeg juridische kennissystemen die wél gericht encorrect antwoorden op juridische vragen kunnen oplepelen. Koppel die dan aan zo’n tekstgenerator om het mooi te maken, zou je zeggen. Maar dat laat nog even op zich wachten.

Arnoud

 

8 reacties

  1. Die fouten verbazen mij niets; het zijn tenslotte taalmodellen, en geen kennismodellen. De vaak gekoesterde verwachting dat dit soort tools op een logische manier met de kennis in de tekst omgaan, mist dan ook elk fundament.

    Zoek je kennis, dan kun je dus inderdaad beter een kennissysteem raadplegen.

    1. En die taalmodellen zijn getraind op teksten die op het Internet gevonden zijn. Laat dat nou net de plek zijn waar je (ook) de grootste juridische onzin vindt. (Sorry Arnoud, dat is zeker niet persoonlijk bedoeld.)

  2. Het probleem is natuurlijk wel dat ChatGPT volgens de hype een alleskunner is geworden. En dat mensen die dat niet beter bestudeert hebben niet door hebben dat dat niet waar is. Hoe vaker gezegd wordt “deze AI spuwt onzin uit” hoe beter, wat mij betreft.

    (Overigens vind ik de aanbeveling om “geen generieke chatbot voor een specifieke taak [te] gebruiken” wel grappig. Want elke vraag die je hem stelt is een specifieke taak, dus dan is een generieke chatbot nergens voor nuttig :-)).

  3. Dat zou nu al kunnen met de huidige ChatGPT 4. Je kunt nu eigen ChatGPT instances ontwerpen, zo is er eentje die jouw vraag omzet naar een zoekactie in https://consensus.app/ en het resultaat netjes formatteert. Hetzelfde is er overigens ook voor Google Scholar, PubMed, JSTOR, Arxiv etc. Dus een juridische databank moet nu ook al kunnen.

  4. LLMs zijn een goed voorbeeld van het aloude GIGO principe: Garbage in, garbage out. De kwaliteit van de test set is alles bepalend. Het mag dan ook niet verbazen dat een algemeen model dat niet getraind is op hoge kwaliteit juridische documenten geen goede juridische antwoorden kan geven.

    Maar, in onze industrie wordt alles kleiner, sneller, en goedkoper (behalve de programmeurs :-). Dit gaat dus over tijd wel goed komen, en ik verwacht dat we voor relatief eenvoudige juridische vragen waar al veel over geschreven is een goed antwoord van een gespecialiseerd LLM kunnen verwachten.

    Maar, voor nieuwe vragen, waar nog niet over is geschreven en waar nog op het scherpst van de snede wordt nagedacht, zal een LLM niks kunnen betekenen. Daarvoor moet je toch een echte LLM raadplegen.

  5. Even Google Bard om zijn mening gevraagd:

    In het algemeen klopt het artikel wel. De onderzoeken van Stanford University hebben inderdaad aangetoond dat chatbots van OpenAI, Google en Meta zeer gevoelig zijn voor fouten bij het beantwoorden van juridische vragen. Dit komt doordat deze chatbots zijn getraind op een dataset van tekst en code, die niet specifiek gericht is op juridische kennis. Als gevolg hiervan kunnen ze foutieve of onvolledige informatie geven over juridische onderwerpen.

    De auteur van het artikel is terecht kritisch op onderzoeken die zich baseren op GPT-3.5. Deze versie van ChatGPT is aanzienlijk minder accuraat dan GPT-4, die in 2022 werd uitgebracht. Het is dus belangrijk om te controleren welke versie van ChatGPT in een onderzoek is gebruikt.

    De auteur heeft ook gelijk als hij stelt dat generatieve AI niet hetzelfde is als een orakel. Generatieve AI-systemen zijn in staat om tekst te genereren die lijkt op menselijke taal, maar ze hebben niet het vermogen om de werkelijkheid te begrijpen. Dit betekent dat ze foutieve of onjuiste informatie kunnen genereren, zelfs als ze getraind zijn op een dataset van accurate informatie.

    De auteur concludeert dat het probleem fundamenteler is dan alleen het gebruik van een tekstgenerator om antwoorden te zoeken. In plaats daarvan zouden we juridische kennissystemen moeten gebruiken die gericht en correct antwoorden op juridische vragen kunnen oplepelen. Deze kennissystemen zouden dan gekoppeld kunnen worden aan een tekstgenerator om het antwoord mooier te maken.

    Deze conclusie is terecht. Juridische kennissystemen zijn in staat om accurate en relevante informatie te geven over juridische onderwerpen. Door deze kennissystemen te koppelen aan een tekstgenerator kunnen we chatbots maken die zowel accuraat als informatief zijn.

    Er zijn echter wel een aantal uitdagingen die moeten worden overwonnen voordat dit mogelijk is. Ten eerste is het nodig om juridische kennissystemen te ontwikkelen die gebruiksvriendelijk zijn en die in staat zijn om te communiceren met mensen op een natuurlijke manier. Ten tweede is het nodig om tekstgeneratoren te ontwikkelen die in staat zijn om tekst te genereren die zowel accuraat als informatief is.

    Als deze uitdagingen kunnen worden overwonnen, dan kunnen we chatbots ontwikkelen die een waardevolle hulpmiddel kunnen zijn voor mensen die juridische informatie zoeken.

  6. Het verschil tussen GPT-3.5 en GPT-4 is inderdaad enorm: GPT-3.5 scoorde in laagste 10% voor het “bar exam”. GPT-4 scoort echter in de top 90%. Het is dus logisch dat je veel betere antwoorden krijgt van GPT-4.

    Onderzoek toont aan dat vooral studenten en niet-experts veel hoger scoren als ze gebruik maken van taalmodellen. Voor experts is het nog steeds “handig”, maar die hebben meestal al een goede manier om juridisch onderzoek te doen, en de kennis waar meer informatie te vinden is. Dit brengt wel risicos met zich mee.

    Voor bedrijven die taalmodellen aanbieden is er een legaal risico aansprakelijkheid voor onjuiste informatie. ChatGPT is mede daarom veel voorzichtiger geworden kort na introductie. Het is interessant hierover na te denken: Zelfs al kan het model krachtige diagnoses maken, wil je dan nog steeds (of juist) niet verwijzen naar menselijke medische experts?

    Een andere risico is economische ontregeling: Zelfs al is de legale analyse van de student kwalitatief hoogwaardig, wil je daar een leek mee laten schermen en concurreren met de geleerden? Ze kunnen namelijk geen second-opinion of common-sense check doen.

    Maar fouten daargelaten, taalmodellen bieden een nieuwe tool die een zeer grote bijdrage kan leveren aan (correcte/geinformeerde) rechtspraak. Het is geen traditionele zoekmachine, maar een semantische zoekmachine / redeneermachine:

    In the field of artificial intelligence, an inference engine is a component of an intelligent system that applies logical rules to the knowledge base to deduce new information. The first inference engines were components of expert systems. […] A semantic reasoner, reasoning engine, rules engine, or simply a reasoner, is a piece of software able to infer logical consequences from a set of asserted facts or axioms.

    Het is geen stochastische papegaai die het internet oplepelt in mooie vorm, het kan echt redeneren, en fouten in redenatie vinden. Het kan jurisprudentie koppelen die nog nooit eerder door mensen/legale zoekmachines is gekoppeld. Het kan daarmee de (pro bono) verdediging van armere verdachten op niveau brengen van een dure advocaat.

    Fouten zullen er komen, en lakse advocaten zullen gehallucineerde zaken citeren. Maar over het algemeen zal AI het recht completer en correcter maken, zodat mensen zich kunnen focussen op randgevallen en empathie.

    Omdat ik het toch niet kan laten:

    (De stochastische papegaai is een leuk woord, maar een incorrecte beschrijving van huidige AI en haar kwaliteiten. Een Markov-keten is een stochastische papegaai. Een LLM is de voorzichtige eerste groei van Algemene Artificiele Intelligentie. Hinton zegt dat we van dit woord af moeten, en dat het misleidend is. De auteurs van het stochastische papegaai artikel zijn politieke activisten en geen eerlijke empirische wetenschappers. Zo klagen ze over het grote energieverbruik van het trainen van taalmodellen, zonder te noteren dat dit energiegebruik wordt verspreid over miljoenen tests door gebruikers. Ze stellen verder, zonder bewijs of verwijzen naar onderzoek, dat LLM’s groeperingen als Black Lives Matter achterstelt, en dat trainen op Wikipedia problematisch is, omdat nu eenmaal meer mannen als vrouwen vrijwilliger worden, en dus hoegenaamd de feiten op Wikipedia seksistisch bevooroordeeld zijn. Een van de auteurs heeft haar naam gegeven als “Shmargaret Shmitchell”, omdat ze niet meer onder Google mocht publiceren, nadat ze ontslagen was voor het spioneren van collega’s middels de interne Google Calendar. Op het moment stelt ze, eveneens zonder wetenschappelijk bewijs of inzicht, dat taalmodellen automatische plagiaatmachine’s zijn die werkelijk niets begrijpen, en de hoofdauteur, gelukkig nu minder in de aandacht want niet meer verbonden aan Google, stelt openlijk dat haar ontslag te wijden was aan haar wetenschappelijke kritiek, haar huidskleur, en dat ze een vrouw was).

Geef een reactie

Handige HTML: <a href=""> voor hyperlinks, <blockquote> om te citeren, <UL>/<OL> voor lijsten, en <em> en <strong> voor italics en vet.