In mijn vorige blog heb ik een inleiding geschreven over de data-analyse van gerechtelijke uitspraken in Nederland. In deze blog ga ik meer specifiek in op de database zoals die wordt aangeboden door rechtspraak.nl.
De dataset
De dataset is een bestand van ongeveer 4,5 gigabyte aan data. Er staan zo’n 2,7 miljoen uitspraken geregistreerd, maar van verreweg de meeste uitspraken zijn alleen meta-gegevens opgenomen (bijvoorbeeld uitspraakdatum, rechtsgebied). Van ongeveer 485.000 uitspraken is de tekst wel opgenomen in de database. Daartoe behoren ook de conclusies van het parket bij de Hoge Raad. Maandelijks wordt de totale dataset aangevuld. Bij Rechtspraak.nl zit een heel team dagelijks uitspraken te anonimiseren en toe te voegen aan de dataset, dat zijn er ongeveer 35.000 per jaar.
Ik beperk mij hierna tot deze dataset van 485.000 uitspraken.
De oudste uitspraak die in de database is opgenomen is het Lindenbaum/Cohen-arrest van de Hoge Raad van 31 januari 1919 (voor de leek hier een uitleg).
Aantallen: enkele overzichten
De meeste uitspraken dateren logischerwijs van de laatste jaren. Hier een overzicht vanaf 2011:
Per jaar per instantie:
Bij elke uitspraak zit ook metadata, het gaat dan onder meer om uitspraakdatum, publicatiedatum, vindplaatsen, relaties met andere ecli’s, instantie, zaaknummer en rechtsgebied. Maar de meeste inhoudelijke informatie zit natuurlijk in de tekst van de uitspraak zelf. In een volgende blog zal ik bepaalde eigenschappen van de uitspraaktekst per uitspraak gaan tellen.