Naar aanleiding van een (vrij kort) college over surveillance en Big Data, werd me gevraagd iets dieper in te gaan op het thema, definities en verschillende vraagstukken die te maken hebben met big data. In dit eerste deel zal ik proberen e.e.a. uiteen te zetten betreft Big Data theorie en terminologie. Het punt dat ik zal proberen over te brengen is dat  a) de term op zich moet worden  bestudeerd en bekritiseerd en b) dat we in veel gevallen, zowel in de theorie als in de praktijk, helemaal niet te maken hebben met Big Data, maar met gekoppelde datasets. In het volgende deel zal ik ingaan op het gevaar voor onze privacy en surveillance en dat dit gevaar schuilt in het vaak ongecontroleerd combineren van datasets, en niet in de hoeveelheid data per se.

Big Data – waar komt het vandaan en wat is het?

Technologische terminologie heeft verschillende uitwerkingen op een maatschappij vanaf het moment dat de term zijn intrede doet. Vaak zet een term, of een bepaalde set termen allerlei processen in gang, terwijl de technologie zelf misschien niet eens doorontwikkeld is. Ook is het niet ongebruikelijk dat de term en het mogelijke gebruik van een technologie anders wordt opgepikt of geïnterpreteerd dan de makers of uitvinders in gedachte hadden – en dit kan op zijn beurt weer invloed hebben op hoe een bepaalde technologie zich ontwikkelt.

Denk bijvoorbeeld aan SMS-en – geen van de ontwikkelaars in de begindagen had ooit gedacht dat het verzenden van berichten een sociale functie zou kunnen hebben. Er zijn legio vergelijkbare voorbeelden te noemen – de boodschap is dat het altijd onzeker is hoe een technologie ‘reist’ en transformeert vanuit een idee naar een lab naar een plek in een maatschappij.

Dit geldt in hoge mate voor de brede term Big Data. Waar de term precies is ontstaan, is moeilijk te achterhalen, maar grofweg zouden we kunnen stellen dat sinds de vlucht van web 2.0 halverwege de jaren 2000, Big Data langzamerhand ook in beeld kwam. Er zijn veel verschillende definities van Big Data. Vanuit de natuurwetenschappen (de ‘hard sciences’), wordt het gezien als een technologische grens van omvang en computerkracht. Als de datasets en de vragen die we stellen aan die datasets (queries) zo groot worden dat ze niet meer door 1 computer, of 1 computer – laboratorium behandeld kunnen worden, dan wordt er gepraat over Big Data. Oplossingen voor deze technologische grens liggen in het spreiden van de benodigde rekenkracht over verschillende computers en/of computerlabs of het bouwen van zeer krachtige ‘supercomputers’ (zie ‘Watson’, ontwikkeld door IBM). Bekijken we Big Data vanuit een technisch perspectief, dan zijn er een aantal cruciale aspecten te noemen die Big Data uniek of anders maken dan andere voorgaande kwantitatieve analyses – domeinen en/of methodes die al gedaan werden door middel van computers. Een eerste aspect is de toenemende beschikbaarheid van grote datasets. Hiermee wordt bedoeld dat het aantal en het type beschikbare datasets lokale opslagmogelijkheden overschrijdt, en dus ergens via een netwerk bereikt moet en kan worden (the cloud). Een tweede, gekoppeld, aspect is dat we grote datasets kunnen combineren via relaties tussen de datasets en daarmee nieuwe vragen en combinaties van vragen kunnen onderzoeken, tussen verschillende domeinen. De datasets worden gekoppeld via  “brugvariabelen” die de te onderzoeken relaties vertegenwoordigen. Dit klinkt abstract, maar stel je voor dat we twee datasets hebben, één over de temperatuur van de afgelopen week in het centrum van Tilburg, gemeten per uur, en één over het aantal verkochte winterjassen in alle winkels in Tilburg Centrum , gemeten per uur. We kunnen nu de relatie van de twee datasets onderzoeken via de brugvariabele “tijd”. Big Data gaat dus altijd over (cor)relaties (hoe verhoudt zich de temperatuur tot het aantal verkochte jassen)  en niet zozeer over causaliteit en hypotheses – omdat het kouder wordt zullen er meer winterjassen verkocht worden. (Dit is overigens een voorbeeld van small big data,  want allebei de datasets zijn zeer klein en zouden door de technische wetenschappers geenszins gezien worden als Big Data!)

figuur-1

Figuur 1: een voorbeeld van tabular data

Een ander aspect van Big Data is dat, als de datasets echt groot worden en de relaties complexer, we als menselijke onderzoekers het niet meer kunnen behappen en de zoekopdrachten zelf ‘slim’ worden om ons te helpen. Dit zou je grofweg machine learning kunnen noemen, al bestaat er veel onenigheid over wat een machine nou echt kan leren in de filosofische zin (lees meer over machine learning in dit artikel). Deze slimme zoekopdrachten zijn niet alleen nodig omdat de te onderzoeken relaties te ingewikkeld worden, maar ook omdat de datasets heterogeen van aard zijn.  Dit behoeft enige uitleg. Als je naar de eigen databases kijkt op je computer (een muzieklijst, een lijst met foto’s of documenten), of op sociale media (een lijst met vrienden, likes of tags), dan zie een gestructureerde manier van ordenen van al die data. Net zoals in een ‘sheet’ van een rekenprogramma zoals Excel, passen die data in 2-D grids van kolommen en rijen, waarbij de kolommen een titel hebben die wat zegt over de ingegeven data (zie figuur 1). Dit heet gestructureerde data (tabular data). Het combineren van dit soort datasets is relatief eenvoudig, omdat de brugvariabelen, indien aanwezig, makkelijk te vinden zijn en het vaak gaat om mens-leesbare taal. Echter, bij veel verschillende big-datasets gaat het om ingewikkelde dataprotocollen en types die a) niet zo mooi in rijen en kolommen geordend zijn en b) in een taal geschreven  die, zelfs voor het getrainde menselijke oog, onbegrijpelijk is. Dit noemen we ongestructureerde data. In het laatste geval gaan de slimme zoekopdrachten (machine-learning algorithms / queries de datasets te lijf door herhaaldelijk verschillende stukken van de datasets te ‘pakken’ en te vergelijken om zelf tot een ordening te komen.Figuur 1: een voorbeeld van tabular data

In de praktijk zijn er niet zoveel partijen (commercieel, onderzoek of overheid) die echt aan Big Data analyse doen: vaak wordt de term gebruikt (misbruikt?) om het te hebben over het eerste voorbeeld: het combineren van datasets om (cor)relaties te onderzoeken. In het volgende deel wil ik ingaan op de vraag wat Big Data kan betekenen voor de sociale wetenschappen en waarom het ook voor ‘ons’ belangrijk is om ons actief bezig te gaan houden met Big Data.

Artikel door Board Asset | SBIT