Sentiment-analyse

Coda Advocaten: sentimentanalyse gerehchtelijke uitspraken per rechtsgebied naar aantal woorden

Alle blogs van de laatste tijd over ecli-uitspraken zijn eigenlijk voorlopers op een tool waarmee je een analyse kunt opvragen van een uitspraak. Dat is een analyse van tekstuele kenmerken die wordt afgezet tegen de andere uitspraken in de database.

Vandaag gaat mijn blog over emoties in uitspraken.

Emotionele connotatie

Er is een lijst beschikbaar van ongeveer 14.000 Nederlandse woorden die een emotionele connotatie hebben. En zoals wij eerder zagen kan de computer die heel goed tellen. Zo is het mogelijk om een analyse te maken van een uitspraak op acht verschillende emoties: woede, verwachting (hoop), walging (disgust), angst, blijdschap, verdriet, verrassing en vertrouwen. Daarnaast wordt een sentiment gemeten: wat is de positieve en negatieve score van de tekst?

Elk woord met een bepaalde emotionele lading krijgt een score op de betreffende emotie. De totaalscore per emotie heb ik vervolgens gedeeld door het aantal woorden van de betreffende uitspraak, zodat je de lading kunt vergelijken met andere uitspraken. Ik heb het NRC-Lexicon gebruikt en daar kun je vast veel op aanmerken, maar omdat het om veel en lange teksten gaat meen ik dat de uitkomst wel betrouwbaar is. Ik heb voor deze blog alleen de uitspraken gebruikt die meer dan 2500 woorden bevatten.

Top 50

De uitkomst is wel verrassend: Wat is de verdeling van de emotie-score op de top-50 van elke gemeten emotie? De in het oog springende cijfers heb ik even blauw gemaakt:

Maar hoe zit het met de sentimenten positief en negatief? Als ik alle uitspraken plot op een x-as met het saldo van positief en negatief (de score van woorden met een positieve connotatie minus de  score van woorden met een negatieve connotatie), en op de y-as het aantal woorden, dan ontstaat een heel interessant beeld (enigszins vereenvoudigd):

Strafrechtelijke uitspraken hebben doorgaans een lagere positiviteitsscore en bestuursrechtelijke uitspraken hebben een doorgaans evenwichtiger “sentimentsbalans”.

Door de tijd

Hoe verhouden deze cijfers zich door de tijd? Ik neem als voorbeeld de emotie “walging” (is dat een emotie?!), omdat daar zo’n groot verschil in verdeling lijkt te zijn:  

De gekleurde blokjes geven aan waar de meeste waarnemingen zitten (met het streepje in het blokje als gemiddelde. De stippen zijn de uitbijters. Je ziet dat de walging verschilt per rechtsgebied (walgt u ook zo van civiel recht?), maar in alle rechtsgebieden gestaag afneemt. Wie hier een verklaring voor heeft mag het zeggen.

Per instantie

Verschillen de emoties per instantie? Ja en nee. Hier een overzicht, waarbij ik de Caraïbische uitspraken heb weggelaten en de vroegere instanties zoveel mogelijk heb toegerekend aan de huidige instanties: 

In deze grafieken vallen enkele zaken op:

  • De uitspraken van de Hoge Raad zijn redelijk gemengd op de twee gekozen emoties. Met name op strafrechtgebied zitten in de emotie verdriet meer uitbijters;
  • De bestuursrecht-uitspraken van het Gerechtshof Amsterdam zitten meer aan de linker bovenkant van het cluster, terwijl deze bij de andere instanties meer aan de rechter onderzijde van het cluster zitten;
  • De rechtbank Den Haag heeft relatief veel bestuursrecht-uitspraken. Dat is verklaarbaar omdat veel (landelijke) bestuursrechtelijke zaken daar worden behandeld.

Volgens mij mogen wij uit bovenstaande cijfers afleiden dat er een significantie bestaat ten aanzien van de sentiments-analyse. Dat betekent dat ze wellicht bruikbaar zijn voor het vinden van uitbijters. 

Andere scores

Wat ook wel aardig is: het is mogelijk om zelf een woordenlijst te maken zodat je ook een score kunt genereren van een door jouzelf opgestelde set van woorden. Daar ga ik in de komende periode maar eens verder over nadenken en wie weet blog ik daar de volgende keer wel over.