Regular expressions (regex)

Het gebruik van reguliere expressies, (ook wel regex genoemd) betreft het zoeken op tekstpatronen, en dus niet slechts op een specifieke tekenreeks. Er bestaat een min of meer uniforme syntaxis van voor verschillende programmeertalen. Het is zeg maar een meer geavanceerde manier van zoeken met wildcards (zoals *) . De regex “verzoek(st|)er” geeft uitspraken terug die zowel verzoeker als verzoekster bevatten.

Het is mogelijk om een lijst te maken van reguliere expressies en per uitspraak die regexen te tellen. Het gaat dan om woorden of tekstpatronen die veel voorkomen in bepaalde procedures en niet of veel minder in andere soorten procedures. Voor de hand ligt om woorden/tekstpatronen te gebruiken die ook in de wetteksten worden gehanteerd, maar dat hoeft niet per se. Als hulpmiddel om je woorden te kiezen kun je ook een lijst van meest gebruikte woorden generen, en daaruit de meest onderscheidende woorden selecteren. Hoe meer woorden je selecteert, hoe beter je resultaten zullen zijn.

Het is belangrijk om te onderkennen dat regex-methode al snel een foutmarge impliceert. Het is de kunst die foutmarge te verkleinen door meerdere en “betere” regexen te gebruiken. Het vergt wat oefening en creativiteit maar is ook weer niet enorm moeilijk. Het aardige is: hoe meer uitspraken je bekijkt, hoe beter je kunt inschatten welke woorden relevant zijn voor het onderscheid. Zelf eens proberen? Op deze website kun je tekstpatronen in je eigen tekst zoeken in de balk erboven.

Een nadeel van regexen is dat spelfouten niet of verkeerd worden gesignaleerd. Ondanks deze bezwaren kan het gebruik van regexen zeer dienstbaar zijn voor het pre-processen van data, zoals wij hierna zullen zien.