Woorden en tekens tellen

Coda Advocaten: ecli-database van rechtspraak.nl

Inleiding

De dataset van rechtspraak.nl biedt een grote hoeveelheid uitspraken. Die uitspraken zijn te analyseren, om zo de huidige rechtspraktijk in kaart te brengen, ontwikkelingen te signaleren en, als het even kan, voorspellingen te doen. Waar begin je met die uitspraken?

In deze blog ga ik specifiek kijken naar het aantal tekens en het aantal woorden in de uitspraak zelf. De gebruikte dataset zijn de teksten van gepubliceerde uitspraken die in 2021 zijn gewezen. Het gaat hier om 48.234 uitspraken (februari 2022). Elke maand worden nog nieuwe uitspraken uit 2021 gepubliceerd, maar voor deze blog maakt dat niet zoveel uit.

Wat is het belang van het aantal tekens en woorden? Keer op keer blijkt mij dat de lengte van de uitspraak (of onderdelen daarvan) een belangrijke variabele is bij het bouwen van een algoritme. Als je bijvoorbeeld de computer wil laten vaststellen wat de uitkomst van een uitspraak is, dan is de lengte van die uitspraak een belangrijke indicator daarvoor. Ik zal laten zien dat verschillende soorten uitspraken verschillende “standaard-lengten” hebben. Het gaat hier om observaties van verbanden, maar er bestaat ook wel aanleiding om in voorkomende gevallen causaliteit te veronderstellen: een verzoek dat zelden wordt toegewezen, bijvoorbeeld een wrakingsverzoek, heeft doorgaans een langere tekst omdat de rechter duidelijker wil uitleggen waarom in dat geval wel een wraking op zijn plaats is.

De dataset geeft naast de tekst uitspraak zelf, enige metadata per uitspraak mee. Bijvoorbeeld: wat is de uitspraakdatum, de publicatiedatum en een korte indicatie van de inhoud van de uitspraak. De meeste gepubliceerde “uitspraken” bezitten alleen metadata, maar daar ontbreekt de tekst van de uitspraak zelf.

Een belangrijke beperking van de database van rechtspraak.nl is dat niet elke uitspraak wordt gepubliceerd. Dat betekent dat je alert moet zijn op de significantie van de data die je analyseert. Voor deze blog is dat echter geen probleem.

Tekens tellen

Eerst maar eens kijken naar die 48.234 uitspraken. Het in de dataset meegegeven rechtsgebied is ofwel Bestuursrecht, Strafrecht of civiel recht. Van de uitspraken zijn er 43 uitspraken die behoren tot het internationaal publiekrecht en 5 uitspraken waar geen rechtsgebied is vermeld. Het gaat om zodanig lage aantallen, dat ik deze uitspraken verwijder uit de dataset.

Hoe zit het met verdeling van rechtsgebieden en door de tijd? Een grafiek:

Hoeveel tekens heeft een gemiddelde uitspraak? Ik heb het dan over letters, cijfers, leestekens, en andere karakters. Verschilt dit per rechtsgebied en per instantie? Zit hier ontwikkeling in? Het aantal tekens verschilt erg per instantie.

De lijn in de vierhoek geeft de mediaan, ofwel de middelste waarneming weer. het vlak geeft de 25% waarnemingen boven en onder de mediaan weer. De streep onder en boven het vlak geeft de overige waarnemingen weer, minus de uitbijters: de uitbijters zijn de statistisch uitzonderlijke waarnemingen. We zien in deze grafiek dat verreweg de meeste uitspraken van de Hoge Raad (veel) korter zijn dan die van de hoven. Het verrast overigens niet dat als je, in plaats van het aantal tekens, het aantal woorden telt, de uitkomst nagenoeg hetzelfde is. Wel zie je dat uitspraken in (civiele) dagvaardingsprocedures langer zijn dan in verzoekschriftprocedures.

Bag of words

Als wij elk woord van de gepubliceerde uitspraken in een kolom zetten en per uitspraak tellen hoe vaak dat woord voorkomt, dan heb je (best wel grote) tabel die ook wel een #bag of words# genoemd wordt. Na een beetje opschonen kom ik uit op 265.151 woorden. De meest voorkomende woorden zijn:

Heb je vragen over de database die ik heb gebruikt? Of wil je specifieke informatie daaruit? Of heb je zelf een database (bijvoorbeeld met teksten)? Laat het vooral weten , ik vind het leuk om daarover mee te denken!