Uiteenlopende overheidsorganisaties verzamelen grote hoeveelheden gegevens over inwoners. Deze gegevens stellen zij in geaggregeerde vorm in toenemende mate beschikbaar als open data (data.overheid.nl). Denk bijvoorbeeld aan gegevens over sociale zekerheid, zorggebruik, schulden, criminaliteit, stemgedrag, etc. Bij elkaar vormen ze een rijke basis om meer zicht te krijgen op onderlinge verschillen tussen wijken, dorpen en steden.
Tussen de datasets bestaan aanzienlijke verschillen in o.a. het geografische niveau waarop ze verzameld worden, de frequentie van updates, alsook de manier waarop de data wordt verzameld. Deze verschillen zijn belangrijk in het licht van de mogelijkheden voor secundaire analyses.
Geografische niveau
Wat betreft het geografische niveau van dataverzameling kunnen we stellen dat verreweg de meeste open datasets informatie bieden op gemeentelijk niveau. Echter, een beperkt aantal gegevens is ook beschikbaar op het niveau van wijk en/of buurt. De overheid gebruikt een geografische codering waarbij elke gemeente, stad, dorp, wijk of buurt een unieke id heeft. Daardoor is het mogelijk om verschillende datasets te koppelen en ontsluiten via een kaartvisualisatie.
Frequentie van updates
Sommige datasets worden periodiek vernieuwd waardoor tijdsgebonden veranderingen in beeld kunnen worden gebracht. Het vernieuwen van datasets vindt vaak plaats op jaarlijkse basis, maar voor sommige datasets is dat minder frequent. Dit is o.a. afhankelijk van beleidsmatige en politieke prioriteiten.
Manier van verzamelen
Overheden verschillen in de manier waarop zij de data verzamelen. Sommige datasets worden verzameld op basis van geaggregeerde exports uit gemeentelijke systemen. Deze gegevens worden op een plek op een gebundelde manier ontsloten. Soms gaat het om verplichte exports. In dat geval zijn de gebundelde datasets dekkend voor heel Nederland. Soms zijn ze vrijwillig en kunnen in de gebundelde datasets gegevens ontbreken. Voor andere datasets gebruiken overheden surveygegevens die worden geëxtrapoleerd tot op gemeentelijk niveau of lager. Deze datasets zijn dus niet 100% feitelijk, maar vooral indicatief waarbij wel een bepaalde betrouwbaarheidspercentage wordt gehanteerd.
Gemeentelijke open data op: waarstaatjegemeente.nl (http://www.waarstaatjegemeente.nl)
Uiteenlopende open datasets over gemeenten en haar inwoners worden door de VNG ontsloten via het dataportaal waarstaatjegemeente.nl. Het gaat om datasets over o.a. het sociaal domein, wonen, schulden, inkomen, digitale dienstverlening, ondernemerspeiling en burgerpeiling. Deze datasets worden geleverd door o.a. het CBS, DUO, KLPD, RIVM, Kiesraad, etc. Naast een geïntegreerd dashboard met gegevens per gemeente kunnen ook ruwe gegevens erachter worden geselecteerd en gedownload voor hergebruik.
Academische en commerciële onderzoeksgegevens
Naast gegevens van de overheid kunnen ook andere datasets relevante informatie opleveren. Vaak gaat het dan om onderzoeksgegevens van bijvoorbeeld universiteiten, hogescholen of commerciële onderzoeksbureaus. De laatste jaren maken universiteiten en de overheid steeds meer werk van het beschikbaar stellen van de ruwe onderzoeksgegevens van die onderzoeken als open data. Voor sommige datasets van bijvoorbeeld het SCP moet je een aanvraag doen om deze te kunnen hergebruiken. De data achter het recente onderzoek naar digitale bereikbaarheid zijn als excel-file te downloaden (http://www.wijverdienenbeter.nl).
Toepassingsmogelijkheden
Wat kun je nu precies met dit soort datasets tijdens de data-challenge Versterk de Petitie? Wij denken heel veel. Deze gegevens bieden namelijk nuttige achtergrondinformatie over de gemobiliseerde netwerken van petitionarissen.
Het is bijvoorbeeld in de sociologische literatuur bekend dat gemeenschappen met meer middelen (bijv. gemeten met inkomen in buurten) een grotere invloed hebben op beleid. Alleen al op geaggregeerd niveau kun je voorspellend of toetsend zoeken naar potentiële maatschappelijke brandhaarden, bijvoorbeeld omdat er een bundeling is van uiteenlopende problematieken.
Ook zou je relaties kunnen leggen met gegevens uit de database van petities.nl, Coosto, kranten of openraadsinformatie.nl. Zijn er relaties tussen bepaalde kenmerken en het aantal petities in een gemeente, het succes ervan, de omvang van de mobilisatie, etc. Is er meer of minder online reuring over of aandacht in kranten voor bepaalde gemeenten met specifieke sociaal-demografische kenmerken? Is er een relatie tussen onderwerpen en discussies in de gemeenteraad en bepaalde bundeling van problematieken in gemeenten?
De eigen creativiteit is feitelijk de enige beperkende factor in de analyses die je hiermee kunt doen.