Het combineren van verschillende datasets leidt tot nieuwe inzichten. Maar in de praktijk komt er heel wat bij kijken om die datasets herbruikbaar te maken en te analyseren. Dat laten we zien aan de hand van een pilot in Schiedam, waarin externe en interne data over afvalinzameling en meldingen over de openbare ruimte kunnen worden gebruikt om relevante organisatie beleids- en dienstverleningsprocessen slimmer te maken.
‘Er is mogelijk een relatie tussen het aantal meldingen/klachten over de openbare ruimte en het gebruik van ondergrondse afvalcontainers’. Vanuit deze hypothese ging de datapilot in Schiedam van start. Als de container te vol of defect is, plaatsen mensen afval naast de container en leidt dat tot meldingen, was de vooronderstelling. Een ogenschijnlijk logische aanname, maar hoe onderbouw je deze aan de hand van data en presenteer je de uitkomsten op een overzichtelijke manier?
Voordat we hierop ingaan, doen we eerst een stap terug. Deze pilot is namelijk geen doel op zich, maar een middel. Het doel is dat de gemeente Schiedam een datagedreven organisatie wil worden. Oftewel, data slimmer wil inzetten voor beleids- en dienstverleningsprocessen. De gemeente heeft Civity gevraagd om in een pilot te laten zien wat zoal mogelijk is en waar dat toe kan leiden. In twee maanden volgden we een vijfstappenplan.
Stap 1 – organiseer een workshop
In een workshop met stakeholders legden we het probleem bloot en brainstormden we over data en informatie die inzicht geven in het probleem. Het uitgangspunt: je kunt oneindig veel informatie verzamelen, maar dan laat je nooit iets zien. Durf dus te selecteren, kies voor korte doorlooptijden. Het project had best een langere doorlooptijd kunnen hebben, maar wij geloven in resultaat door korte iteraties. Daarbij is het belangrijk om in het achterhoofd te houden dat datagedreven sturing vooral communicatie is.
Stap 2 – verzamel de data
Uit de workshop bleek dat uitgebreide data beschikbaar waren over locaties, stortgedrag en vullingsgraad van afvalcontainers, meldingen over de openbare ruimte en scholen. Het gaat om de volgende datasets:
- Meldingen openbare ruimte (van 1-1-2014 tot 30-06-2015) (bron: Meldingen Zakenmagazijn Schiedam)
- Stortingsmomenten afvalcontainers (van 1-1-2014 tot 30-06-2015) (bron: Irado, lokale afvalinzamelaar)
- Legingsmomenten en vullingsgraden afvalcontainers (bron: Irado)
- Scholen (bronnen: Adressenboekje 2014-2015 en open data van www.duo.nl)
- Buurten Schiedam, gebruikt om te bepalen welke containers en meldingen bij welke buurt horen (bron: CBS)
Stap 3 – maak de datasets bruikbaar
Nu weten we wat de vraag is én welke bronnen beschikbaar zijn om tot inzicht te komen. Het meest bewerkelijke onderdeel van het proces is het bruikbaar maken en op elkaar afstemmen van de databronnen. Het gaat om verschillende onderwerpen, verschillende bronnen en bovenal verschillende formaten en standaarden.
Wat houden de data in en hoe kun je die mogelijk combineren met andere data? Met deze vragen in het achterhoofd namen we de verschillende datasets onder de loep: als iemand melding maakt van een incident in de openbare ruimte, wil je graag op de kaart laten zien waar deze melding is gedaan. Maar niet alle meldingen bevatten coördinaten, omdat die in het proces niet werden vastgelegd. We zijn hier pragmatisch mee omgegaan. Zo hebben we op basis van opgegeven straat + huisnummer zelf bepaald wat de ontbrekende coördinaten zijn, of in het geval van het ontbreken van een huisnummer het midden van de straat genomen. Hierdoor heb je niet altijd de exacte locatie te pakken, maar bied je wel een zo compleet mogelijk overzicht van het aantal meldingen.
Een andere afweging die we maakten, is de inkadering van het onderwerp. Meldingen over de openbare ruimte gaan over een groot aantal onderwerpen: van losliggende stoeptegels tot afgewaaide boomtakken. Daarbij heb je meldingen die direct betrekking hebben op afval, terwijl andere meldingen inzicht kunnen verschaffen in het ontstaan van overlast. Een simpel voorbeeld zijn meldingen over ongedierte, die mogelijk op zwerfvuil of overvolle containers afkomen. Mede om die reden is ervoor gekozen álle meldingen over de openbare ruimte te tonen.
Zo zijn voor elke dataset afwegingen gemaakt over de verwerking en inkadering. Door datasets te clusteren op buurt en datum hebben we het aantal stortingen in een afvalcontainer per dag en per buurt bepaald. De data over de legingsmomenten en vullingsgraden van afvalcontainers vereiste de meeste voorbewerking. De gemeten vullingspercentages van een container overschreden met regelmaat de 100 procent. Dat is in de praktijk logischer dan het lijkt. De berekening van de afvalinzamelaar is nu namelijk gebaseerd op een aanname (x stortingen = x % vullingsgraad) en niet op de werkelijke vulling.
Om dit effect te corrigeren, hebben we alle vullingsgraden van boven de 100 teruggebracht naar 100. Dat is een pragmatische, eenvoudige oplossing, maar het brengt wel discussies los over de vraag hoe de situatie écht in elkaar steekt. En dat was een van de doelen van het proces.
Een ander aandachtspunt was dat de data van Irado alleen de vullingsgraad van de containers op de dag van leging aangeeft, en niet de tussentijdse percentages. Hoe maak je dan het dagelijkse vullingspercentage inzichtelijk? Door de percentages tussen opeenvolgende meetmomenten evenredig te laten toenemen. Hiervoor gebruikten we als basis de gemiddelde vullingsgraad van alle containers in een buurt, maar dit leverde vreemde waarden op. De oorzaak: met name containers op zonegrenzen worden niet op vaste dagen geleegd. Daarom hebben we per afzonderlijke container een dagelijkse vullingsgraad berekend die evenredig toeneemt tussen opeenvolgende meetmomenten.
Over elke van deze aannames is discussie mogelijk en hadden andere keuzes kunnen worden gemaakt. Voor het experiment en het leereffect is het belangrijk dát een gemotiveerde keuze wordt gemaakt. In een latere fase kunnen keuzes altijd nog worden aangepast.
In de pilot is informatie over scholen alleen gebruikt om op een kaart weer te geven. Nadere analyses op aantal leerlingen, looproutes van/naar winkels en zwerfvuilmeldingen kunnen interessant zijn, maar zijn in deze fase niet meegenomen. Hetzelfde geldt voor data over bebouwing (hoogbouw/laagbouw) of demografische opbouw van buurten. Allemaal heel interessant voor een volgende iteratie.
De leerervaring uit het eerste deel is dat data bruikbaar maken de nodige inspanning vergt. Vaak gaat de meeste aandacht uit naar de presentatie, maar 80 procent van het werk zit in de voorbereiding.
Stap 4 – visualiseer de data
Een van de doelen van de pilot was het overzichtelijk presenteren van de verschillende datasets. Hierdoor ontstaat inzicht in de informatie en heb je een basis om het gesprek te voeren over de resultaten. Daarbij moest het mogelijk zijn om verder in te zoomen op specifieke informatie als daar behoefte aan is. Ook diende de uitwerking herbruikbaar te zijn voor andere onderwerpen en datasets, zodat nieuwe verbanden kunnen worden onderzocht.
Het eindresultaat is dan ook vooral een communicatie-instrument en geen technische oplossing. In de pdf-versie bij dit artikel (zie hieronder) is een groot aantal afbeeldingen en toelichtingen opgenomen die de verschillende onderdelen van het dashboard beschrijven.
De visualisaties die we voor Schiedam hebben gemaakt (zie pdf-versie) in combinatie met de informatie uit stap 3 tonen de potentie van data, maar laten ook zien dat er mogelijkheden zijn voor verbeteringen. Zo zijn de data over de vullingsgraad van containers nu nog gebaseerd op aannames (klepbewegingen) in plaats van de daadwerkelijke vullingsgraad. Daarnaast bleek uit gesprekken dat de vullingsgraad van individuele containers de leging van alle containers in de zone bepaalt. De inzameling is nu nog gebaseerd op niet-dynamische, vaste routes, waardoor ook containers met een lage vullingsgraad worden meegenomen. Hier valt veel winst te behalen.
Mede op basis van de inzichten uit dit experiment zijn acties in gang gezet om realtime informatie te verzamelen (op basis van sensoren in containers). Ook wordt gekeken naar het invoeren van dynamische route aan de hand van sensordata. Hierdoor worden alleen afvalcontainers met een bepaalde vullingsgraad opgenomen in de route, met besparingen en een vermindering van de milieuroverlast als resultaat.
Stap 5 – doe je voordeel met de leerervaringen
De pilot was onderdeel van het traject om in Schiedam slimmer gebruik te maken van data. Belangrijker nog dan de uitkomsten van de pilot is het proces dat leidde tót de visualisaties. Daarom sluiten we af met enkele leerervaringen die we in deze pilot hebben opgedaan.
- Voer het gesprek over definities, aannames en keuzes. Er zijn veel impliciete afwegingen en veronderstellingen. Maak ze helder en transparant.
- Besteed voldoende tijd aan het verzamelen, beoordelen en geschikt maken van data. De presentatie/visualisatie is stap 2.
- Neem daarnaast de tijd om met elkaar zo concreet mogelijk te formuleren wat het onderliggende vraagstuk is. Het formuleren van goede vragen vergt tijd.
- Datagedreven sturing gaat over communicatie. Stel vragen, vraag daarop door en stel waar nodig bij.
- Experimenteren is belangrijk, maar zorg daarna voor verankering in de organisatie. Besef dat andere competenties, ict-voorzieningen en organisatievormen vereist zijn.
- Efficiënt sturen op data betekent dat het onderwerp een vast agendapunt van het management moet zijn.
- Begin klein, maar denk vanaf de start over hergebruik en opschaling. Het voorbeeld dat we hier geven is duidelijk ingekaderd, maar het proces erachter is herbruikbaar voor elk beleidsterrein. Of het nu over zorg, duurzaamheid of mobiliteit gaat.
- Vergeet nooit dat de techniek niet meer dan ondersteunend is. Alle mooie data en visualisatieoplossingen ten spijt; het heeft beperkte waarde als je geen processen inricht om datakwaliteit te waarborgen.
Mildo van Staden zegt
Mooi stukje Arjen, er zijn niet zo veel artikelen die een inkijkje geven hoe je nu zo’n analyse maakt en wat er bij komt kijken. Paar vragen: hoe lang heeft het proces geduurd, vanaf de eerste workshop tot de presentatie? En het proces is een gezamenlijk proces geweest tussen jullie medewerkers en Civity. Welke kennis heeft Civity wat jullie medewerkers niet in huis hebben? En andersom…
groet Mildo
Arjen Hof zegt
Dag Mildo,
Bedankt voor jouw reactie en leuk om te horen dat je het interessant vond. Het is goed om te weten dat ik, vanuit Civity, ingehuurd ben door Schiedam. Voor de realisatie hebben we andere mensen/bedrijven betrokken. De realisatie van de visualisatie heeft 2 maanden geduurd (en een maand voorbereiding om de data te verzamelen/beoordelen). Het was ook de bedoeling om in korte tijd resultaat te boeken en te laten zien welke mogelijkheden data bieden. Zodat we daarna snel het gesprek zouden kunnen voeren over de resultaten.
Doelstelling is ook de overdracht van kennis naar medewerkers van Schiedam. Die beschikken wel over ruime ervaring mbt onderzoek en statistiek, maar hebben nog onvoldoende kennis vaardigheden mbt nieuwe mogelijkheden (visualisaties, data science, beschikbare tools, etc.). We zijn nu een opleidingsprogramma aan het voorbereiden, zodat binnen de gemeente Schiedam de (basis)kennis over deze onderwerpen wel aanwezig is. Ook met als doel het opdrachtgeverschap naar de markt te versterken (er zal altijd sprake zijn van inzet van externe deskundigheid).