Big Data is een term die vaak gebruikt wordt. Toch wordt alleen het topje van de data ijsberg gebruikt, volgens IDC (2017) wordt meer dan 99% van alle beschikbare data niet geanalyseerd [1]. Wat is hier de reden van en hoe zou deze data wel gebruikt kunnen worden?

Big Data is een begrip dat bij IThappens.nu al vaker aan bod is gekomen. Voor een uitleg hierover wordt u doorverwezen naar bijvoorbeeld dit artikel van Tjerk Timan. Maar wat is nu Dark Data? Dark data is alle data waarover een organisatie beschikt, maar niet meer gebruikt voor andere doeleinden dan waarvoor deze oorspronkelijk verzameld is. [2] Veel data binnen een organisatie kan dan ook gecategoriseerd worden als Dark Data, omdat deze data wel wordt opgeslagen maar nergens meer voor wordt gebruikt [3].

Er zijn drie soorten Dark Data te onderscheiden:
Traditioneel ongestructureerde data: Dit is data die vaak verborgen zit in geschreven bronnen, zoals e-mails, aantekeningen en rapporten. Deze data is ongestructureerd, omdat het niet geordend is in een database.
Niet traditionele ongestructureerde data: Het gaat hier vooral om beeld- en geluidsmateriaal, die van waarde kunnen zijn als deze op de juiste manier worden geanalyseerd. Deze analyses kunnen alleen niet worden uitgevoerd met traditionele technieken. Desondanks is er steeds meer vooruitgang in de technologieën die deze analyses steeds beter maken. Tegenwoordig bestaat er al een ziekhuis dat probeert om röntgenfoto’s om te zetten in data en te analyseren [4].
Deep Web: De laatste categorie gaat over data die verscholen ligt in het Deep Web. Via het Deep Web is data te verkrijgen die met standaard zoekmachine zoals Google en Bing vaak niet gevonden kunnen worden, voorbeelden zijn medische- en bankgegevens. [3][5]

Dark Data wordt dus niet in zijn volle potentie gebruikt, veelal omdat deze data niet gestructureerd is. Ook deze data kan geanalyseerd worden, doormiddel van Dark Analytics. Dark Analytics is niet gericht op het ordenen van grote hoeveelheden ongestructureerd data, maar op het analyseren van specifieke data in een specifieke scope. Voordat er wordt begonnen met een analyse zullen een aantal zaken helder moeten zijn. Het probleem moet duidelijk zijn, wat men zou willen als het probleem er niet zou zijn en welke data er nodig is om het probleem te kunnen analyseren.

Risico’s

Dark analytics is een relatief nieuw begrip wat ook de nodige valkuilen met zich meebrengt. Een aantal veel voorkomende risico’s zijn:

  • Bepaalde data die door wet- en regelgeving beschermd wordt, zoals persoonsgegevens en transactie gegevens, kan voorkomen in Dark Data. Hiermee dient met zorg omgegaan te worden.
  • Ook kan Dark Data bedrijfsgevoelige informatie bevatten, over bijvoorbeeld bedrijfsprocessen of concurrentievoordeel.
  • Dark Data bevat veel onbekende en niet-geëvalueerde data. Dit kan voor problemen zorgen voor de gebruiker wanneer deze niet weet hoe hiermee omgegaan dient te worden.
  • Een ander groot risico wat van toepassing is op alle soorten data is een reputatie risico. Wanneer er een datalek is, kan dit leiden tot grote schade voor een organisatie.
  • Als een organisatie er echter voor kiest om niet in dark analytics te investeren, zal een derde partij hier wellicht concurrentievoordeel mee kunnen behalen. [5][6]

Om deze risico’s te minimaliseren kunnen er verschillende strategieën gevolgd worden.

  • Dark Data zou continue geïnventariseerd en beoordeeld kunnen worden. Zo zou er periodiek gekeken kunnen worden of er nieuwe technologieën beschikbaar zijn gekomen die waarde uit Dark Data kunnen halen. Op deze manier zou bekeken kunnen worden of de Dark Data van het verleden, waardevolle informatie voor het heden of toekomst bevat.
  • Alle data met potentiële waarde kan versleuteld Op deze manier wordt het zeer moeilijk gemaakt voor onbevoegden om de data te lezen en te gebruiken.
  • Er dient bepaalt te worden welke opgeslagen (Dark) Data behouden of verwijderd moet worden. Hierover zullen duidelijke afspraken gemaakt moeten worden, aan welke criteria moet de (Dark) Data voldoen om opgeslagen te mogen worden en hoe zou dit dan beveiligd moeten worden?
  • Veel organisatie voeren periodiek controles uit op het gebied van veiligheid, risico’s en blootstelling. In deze controles zou (Dark) Data ook meegenomen kunnen worden. [6]

Kansen

Ondanks de risico’s bied Dark Analytics ook mogelijkheden. Zo kan Dark Analytics helpen om de vraag naar goederen en diensten te voorspellen, door bijvoorbeeld klikgedrag te analyseren. Ook kan Dark Analytics helpen bij het analyseren van feedback van klanten. Doormiddel van serverlog bestanden te analyseren wordt het mogelijk om statistieken met betrekking tot internetverkeer te verkrijgen. [5]

Dark Data voorbeelden

Waardevol gebruik van Dark Data is terug te zien bij het vliegveld van Kopenhagen. Het vliegveld verzamelde allerlei gegevens met behulp van hun WiFi-routers. Op deze manier konden passagiers in de terminal gevolgd worden. Met deze gegevens werd bepaald wat de meest bezochte plaatsen zijn, waar bijvoorbeeld weer marketing- of beveiligingacties aan gekoppeld konden worden. [5]

Een ander voorbeeld waar Dark Data van waarde kan zijn, is dat bij een website van een producent. In eerste instantie wordt misschien gedacht dat alleen data die direct te maken heeft met marketing en sales relevant is, maar ook de locatie van bezoekers kan interessant zijn. Bijvoorbeeld wanneer de bezoekers uit het buitenland komen, maar de producent daar niet afzet. Op deze manier zou een potentiële afzetmarkt aangeboord kunnen worden. Ook wanneer de producent geen ambities of middelen heeft om een nieuwe afzetmarkt aan te boren, kan dit nog wel interessante informatie zijn voor een concurrent of partner. [7]

Veel data die een organisatie bezit kan van waarde zijn zolang deze op de juiste manier wordt geanalyseerd. Het is mogelijk dat de data zelf geen waardevolle informatie verschaft voor de organisatie, maar het kan wel waardevol zijn voor andere organisaties. De data die nu niet wordt gebruikt voor andere doeleinden wordt Dark Data genoemd. Met behulp van Dark Analytics kan ook deze data geanalyseerd en waardevol worden.

[1] Reinsel, D., Gantz, J., & Rydning, J. (2017). Data Age 2025. IDC.
[2] Gartner. (2017). Dark Data. Opgeroepen op Juli 19, 2017, van Gartner: http://www.gartner.com/it-glossary/dark-data
[3] Deloitte. (2017). Tech Trends 2017: Dark analytics: Analyzing unstructured data. Deloitte.
[4] Faggella, D. (2016, Augustus 29). Machine Learning Healthcare Applications – 2016 and Beyond. Opgeroepen op Maart 3, 2017, van teachemergence: http://www.techemergence.com/machine-learning-healthcare-applications/
[5] Chowdhury, A. P. (2017, Mei 11). Shining a light on Dark Analytics in the data-driven age. Opgehaald van Analytics India: http://analyticsindiamag.com/shining-light-dark-analytics-data-driven-age/
[6] Tittel, E. (2014, September 24). The Dangers of Dark Data and How to Minimize Your Exposure. Opgehaald van CIO: http://www.cio.com/article/2686755/data-analytics/the-dangers-of-dark-data-and-how-to-minimize-your-exposure.html
[7] Spotlessdata. (2017). Are you using your Dark Data effectively? Opgeroepen op Juli 26, 2017, van Spotlessdata: https://spotlessdata.com/blog/dark-data-data-cleansing

 

 

 

 

Artikel door Frank Harmsen