Big data-voorbeelden ter lering en vermaak

Vanaf de lancering eind november 2015 verschijnen op dit platform geregeld bijdragen over de mogelijkheden van big data in de publieke sector. Ter indicatie, in zo’n 22 procent van de artikelen en interviews komen de termen ‘big’ en ‘data’ terug. Slaat men deze bijdragen erop na dan ziet men vaak dat de auteur(s) of geïnterviewde(n) de lezer oproepen om nu eindelijk eens met de (grote) overheidsdatabestanden aan de slag te gaan. Maar waar te beginnen? Door in deze tekst enkele basale toepassingen en technieken te presenteren, hoop ik de lezer te inspireren en bewust te maken van enkele uitdagingen.

Concreet analyseerde ik alle 128 artikelen die tot 29 juni 2016 werden gepubliceerd op platform O. Ten eerste onderzocht ik populariteit van bepaalde thema’s. Ten tweede probeerde ik te voorspellen welke woorden meer bezoekers trekken. De analyses voerde ik uit in het gratis softwarepakket R, waarbij ik gebruik maakte van het tm-pakket om een dataset van tekstbestanden te analyseren en het wordcloud-pakket waarmee men mooie afbeeldingen kan maken. De gehele programmeercode met korte toelichting is te vinden op mijn GitHubpagina. De resultaten van dit onderzoekje zijn in het geheel niet spectaculair, dat komt wel over enkele jaren als we echt kunnen spreken van big-data op platform O.

‘Een klein big data-project kost twee dagen om uit te voeren’

Om een indicatie te geven van de tijd die men moet vrijmaken voor een klein bigdataprojectje als hier beschreven: het kostte mij ongeveer twee werkdagen om dit onderzoek uit te voeren. Zoals gebruikelijk in dit type onderzoek ging de meeste tijd verloren aan het verzamelen en opschonen van het databestand. Op internet wemelt het gelukkig van de bronnen waar uitgelegd wordt hoe deze problemen op te lossen. Dat het slecht weer was, hielp ook.
Al googelend om een slimme oplossingen te vinden voor al mijn problemen, ontdekte ik per toeval het boek Machine Learning for Hackers geschreven door Drew Conway en John Myles White. Ik downloadde een illegale kopie die ik snel verwijderde, maar pas nadat ik had gezien dat veel van de dingen die hier ter sprake komen door Conway en White uitgebreider, gedetailleerder en vermakelijker worden uitgelegd.

Populair
Met behulp van een simpel stukje code is het mogelijk om een zogenaamde Wordcloud te genereren van veelvuldig gebruikte termen. Hoe groter het woord afgebeeld, hoe ‘belangrijker’ dat woord (lees: hoe meer het woord gebruikt wordt). Mocht u beschikken over een grote verzameling tekstbestanden zoals notulen, bezwaarschriften, en beleidsteksten, dan geven Wordclouds een mooie indicatie van de hot topics. Figuur 1 toont de termen die het vaakst op platform O worden gebruikt.

Figuur 1: tremen die het meest worden gebruikt

Figuur 1: termen die het meest worden gebruikt

Figuur 2 laat de termen zien die in de meeste artikelen minimaal eenmaal gebruikt worden.

Figuur 2: termen die in de meeste bijdragen worden genoemd

Blindelings conclusies trekken op basis van Wordclouds is niet verstandig. Zo hebben schrijvers in figuur 1 het veelvuldig over ‘data’. Maar kijkt men naar figuur 2 dan blijkt het woord een stuk minder prominent aanwezig. Mensen die iets willen zeggen over (big) data hebben dus blijkbaar de neiging om dat woord dan ook maar vaak te bezigen.
Belangrijk ook om te vermelden is dat men er rekening mee moet houden dat de computer frustrerend nauwkeurig is. Woorden als gemeente en gemeenten worden als twee verschillende termen beschouwd (zie figuur 1). Hetzelfde geldt voor samengestelde woorden als Europese Unie en Tweede Kamer. Tenslotte worden woorden die synoniem van elkaar zijn zoals Europa en EU niet automatisch aan elkaar gekoppeld. Gelukkig zijn deze problemen met additionele stukjes programmeercode en softwarepakketten te omzeilen, maar dat is voor een volgende bijdrage.

Meeste bezoekers
Het liefst wil iedereen natuurlijk zoveel mogelijk lezers. U raadt het al: met behulp van software kan men bestuderen of de aanwezigheid van bepaalde tekstelementen bijdraagt tot meer unieke bezoekers. Deze methoden kunnen natuurlijk ook gebruikt worden om te achterhalen of bepaalde woordkeuzes leiden tot een kortere leestijd, minder klachten en – wellicht nog het meest interessant, maar het moeilijkst te onderzoeken – een betere naleving van de regels.
Om de populariteit van bijdragen te voorspellen bestaan verschillende statistische technieken en algoritmen. Probleem van deze tools is echter dat ze pas goed hun werk kunnen doen wanneer de dataset op z’n minst uit enkele duizenden objecten bestaat. Kleine datasets zoals beschikbaar voor dit onderzoekje zijn minder geschikt om voorspellende analyses uit te voeren omdat men moet leunen op stringente data-assumpties en de impact van toevallige factoren de resultaten sterk kunnen beïnvloeden.
Met behulp van simpele lineaire regressie deed ik toch een poging. Specifiek probeerde ik aan de hand van de woorden in de preview van iedere bijdrage – titel, ondertitel, en eerste alinea – het aantal unieke bezoekers te voorspellen. En ja, zo’n 150 van de 2852 gebruikte woorden in de previews hebben een significante relatie met het aantal unieke bezoekers. Het gaat hierbij om woorden als ‘appjes’, ‘vluchtelingenvraagstuk’, en ‘informatiesamenleving’. Interessant is dat er vrijwel niets verandert wanneer men corrigeert voor publicatiedatum. Opmerkelijk is ook dat hoewel men graag over ‘data’ schrijft – in 16 previews wordt het woord minimaal éénmaal genoemd – de betreffende bijdragen niet bij de top van meest gelezen stukken horen.
Is het slim om over apps te schrijven in plaats van over data om meer lezers te trekken? Dat hoort u mij hier niet beweren. Zo spelen de in de vorige sectie genoemde problemen met tekstclassificatie mij hier ook parten. Bovendien werd er maar één bijdrage gepubliceerd waarin het woord ‘appjes’ onderdeel is van de preview. Het kan goed zijn dat de auteur vanaf heel wat locaties haar/zijn eigen bijdrage opende of – wat waarschijnlijker is – een zeer prikkelende introductie schreef. Om betere voorspellingen te doen heeft men meer data nodig en liever ook nog een goede theorie die richting geeft aan het selecteren van mogelijk relevante tekstkarakteristieken.

Energie
Waar te beginnen? Naast de technische uitdagingen die hier terloops aan de orde waren, zijn er ethische en juridische kwesties die men niet terzijde mag schuiven wanneer men aan de slag wil met bigdatatools. Belangrijk is ook dat men eerst moet broeden op een goede, relevante onderzoeksvraag en theoretisch raamwerk voordat men aan de slag gaat. Iets dat veel meer energie kost dan al het benodigde programmeerwerk, maar al te vaak over het hoofd wordt gezien.
Ik dank de redactie voor het aanleveren van de links naar alle artikelen en de webpagestatistieken. Dank natuurlijk ook aan alle auteurs voor hun interessante bijdragen, die ik terloops ook allen gelezen heb. Hopelijk kan ik over een jaar of twee aan de slag met een daadwerkelijk (big) data-archief aan bijdragen.

Big data-voorbeelden ter lering en vermaak

annuleer reactie