De hype du jour in de IT wereld, maar ook ver daarbuiten, heet ‘Big Data’. Het lijkt wel of het nergens anders meer over kan gaan. Van bestuurskamer tot hockey veld, van Groningen tot Maastricht: Big is Beautiful! Misschien tijd om alle torenhoge verwachtingen en toegedichte magische krachten van Big Data even in perspectief te plaatsen. Waar hebben we het nu eigenlijk over? In 2001 werden de termen ‘Variety, Velocity en Volume’ door Doug Laney al gebruikt om een ‘nieuw’ fenomeen aan te duiden. Langs deze 3 assen zag hij een accelererende groei waardoor een onbeheersbare situatie dreigde te ontstaan. Grote stuwmeren aan data die steeds moeilijker op te slaan, te analyseren en vooral, te begrijpen zouden zijn. Als onderbouwing worden dan vaak de exponentieel groeiende curves getoond die laten zien dat het de laatste jaren wel héél hard gaat. Maar is dat wel zo? En is dat zo nieuw? Dat valt eigenlijk nogal mee.

Als we bijvoorbeeld naar de datagroei van 1980 tot pakweg 1985 kijken zien we namelijk precies hetzelfde plaatje! En ook de problemen die we nu denken te hebben, hadden we toen ook al. De meeste slimme algoritmen om waardevolle inzichten uit die data te halen dateren vaak al uit de jaren 60 toen veel baanbrekend onderzoek is verricht op het gebied van Machine Learning en Data Mining. Denk aan verschillende vormen van regressie analyse, beslisbomen en neurale netwerken. Wat wél veranderd is, is enerzijds de schaalgrootte, maar vooral ook de fenomenale ontwikkeling die de computer hardware heeft doorgemaakt. Als auto’s gelijke tred gehouden zouden hebben, dan kostte een Ferrari nu 5ct en kon hij op 3 milliliter benzine in 7 seconden van Amsterdam naar Venetië rijden! Dus aan de ene kant een exponentiële groei in capaciteit, met aan de andere kant een exponentiële afname in prijs. Toch zijn de grenzen van wat er met 1 computer gedaan kan worden wel een beetje in zicht. En daar komt de échte vernieuwing in de wereld van Big Data vandaan: we gebruiken niet 1 grote computer maar heel veel relatief kleine, die we vervolgens parallel hun werk laten doen.

In essentie werkt dit heel simpel: stel dat je het aantal M&M’s per kleur moet gaan tellen, en er staat 10 kilo van dat snoepgoed voor je, wat doe je dan? Diep zuchten en aan de slag? Nee, een slimmerik belt 9 vrienden, geeft ieder 1 kilo en vraagt om deze per kleur te gaan tellen. Vervolgens worden de tussentotalen opgehaald en bij elkaar opgeteld, waardoor het werk bijna 10 keer sneller klaar is. ‘Bijna’ omdat het verdelen en ophalen uiteraard ook nog wat tijd kost. Nu zijn de meeste taken een stuk ingewikkelder dan in dit simpele voorbeeld, maar in essentie is dat precies wat bedrijven als Facebook, Google en Yahoo doen in hun rekencentra: taken verdelen over een grote hoeveelheid parallel werkende computers. En nu komt het mooie: de software die ze hiervoor in eigen beheer hebben ontwikkeld wordt meestal uitgebracht met een Open Source licentie, waardoor in principe iedereen er mee zou kunnen gaan werken. Het meest bekende voorbeeld hiervan is Hadoop, een platform voor grootschalige gedistribueerde verwerking van taken net als in het M&M voorbeeld.

Hadoop en vergelijkbare oplossingen worden inmiddels wereldwijd omarmd door iedereen die met veel data te maken heeft. Denk hierbij in eerste instantie aan banken, verzekeraars, webshops en telco’s, maar steeds meer organisaties ontdekken de voordelen van het platform. Ga maar na: ongelimiteerde schaalbaarheid, goedkope standaard hardware en relatief lage software kosten. Allemaal hosanna dus? Dacht het niet… En dan kom ik weer terug op de titel van deze blog: iedereen lijkt nu vooral bezig om als een soort Rupsje Nooitgenoeg maar zoveel mogelijk data te verzamelen, zonder eerst na te denken wat uiteindelijk het doel hiervan is. Voor Hadoop maakt het niet uit: data is data, gestructureerd, ongestructureerd, tekst, getallen, plaatjes, video’s: alles wat je op kunt slaan op een computer kun je kwijt. En daar ligt wat mij betreft de grote uitdaging voor de komende tijd: allemaal prachtig die grote hoeveelheden data, maar zonder goed ingericht data management blijven het gewoon enen en nullen zonder enige toegevoegde waarde.

Artikel door Externe bron

IThappens staat open voor interessante artikelen van gastredacteurs. Ook dit artikel is door een van onze zeer gewaardeerde gastredacteurs geschreven.