De betekenis van gestructureerde en ongestructureerde data

Hand schrijft met pen in notitieboekje, daaronder allemaal A4'tjes met data erop

Wat zijn gestructureerde en ongestructureerde data?

Volgens onderzoeksinstituut Gartner zal de hoeveelheid data de komende jaren met 800 procent toenemen. In dit geval hebben we het vooral over ongestructureerde data. Dit betreft data die geen specifiek format volgen. Ongestructureerde data verblijven dus niet in de traditionele rij-kolom database. Dit is echter wel wat mensen verwachten als ze aan data denken. Niet getreurd: gestructureerde data zijn daarentegen wél opgeslagen in deze tabellen. Toch komt ongestructureerde data aanzienlijk vaker voor. 80 procent van de data in het zakenleven en 95 procent van de data in het dagelijks leven is ongestructureerd. Maar waarom heeft het zin om onderscheid te maken tussen deze twee soorten data?

Orde, overzicht en structuur

Gestructureerde data zijn dus gegevens die in een database worden opgeslagen. Hierbij moet je denken aan opsommingen van kenmerken zoals leeftijd, geslacht en geboorteplaats. Alle gegevens zijn geïdentificeerd, gelabeld én makkelijk toegankelijk. Je kunt je dus voorstellen dat bedrijven hier veel gebruik van maken. Gestructureerde data is simpelweg eenvoudig te verwerken en te interpreteren. Kortom, het cliché over Excel-bestanden vol met gegevens over klanten, cliënten of patiënten is in dit geval zeker waar.

Chaos

Excel-bestanden vol met cijfers gaan echter niet altijd op. Eigenlijk gaat het in de meeste gevallen niet op, omdat de meeste data ongestructureerd van aard is. Deze data heeft geen vastgesteld datamodel en is niet opgesteld volgens een bepaald format. Het is dus heel lastig om waarde uit deze data te halen, terwijl het daar juist om gaat. Werken met ongestructureerde data kan heel ingewikkeld zijn en veel tijd kosten. Dat zie je ook terugkomen, als je nagaat dat slechts een fractie van alle data daadwerkelijk is geanalyseerd. Dit zouden we veel meer moeten doen, omdat je er veel relevante inzichten uit kunt halen.

Ongestructureerde data in real-life

Ongestructureerde data is dus vrij vaag en moeilijk te classificeren. Deze voorbeelden geven een goed beeld over wat ongestructureerde data precies is:

  • Activiteitendata afkomstig uit eBooks, Digital Music Players en je telefoon. Dit is dus alles wat mensen doen, lezen en luisteren.
  • Social media data, dus alle gesprekken op Facebook, Twitter, LinkedIn, et cetera.
  • Interne bedrijfsdata zoals e-mails, tekstdocumenten en onderzoeksresultaten.
  • Alle foto’s en video’s op telefoons, laptops, et cetera.
  • Internet of Things; denk hierbij aan gegevens van SmartTV’s, smartwatches en smartalarms.
  • Overige ongestructureerde data, zoals data van een callcenter en enquêtes met open vragen.

De drie V’s van Gartner

Ongestructureerde data zijn sterk gelinkt aan de drie V’s die gelden bij big data. Deze drie V’s zijn opgesteld door onderzoeksinstituut Gartner en worden hieronder toegelicht.

  • Volume: ongestructureerde data vereisen veel meer opslag dan gestructureerde data, omdat ongestructureerde data  ‘rich content’ bevatten.
  • Velocity: deze soort data groeit bovendien veel harder dan gestructureerde data.
  • Variety: ongestructureerde data worden daarnaast gegenereerd vanuit databronnen die niet eerder gebruikt zijn.

Van combineren kun je leren

Data heeft altijd een reden van ontstaan, bijvoorbeeld iemand ergens van op de hoogte stellen of een rapport sturen. Belangrijk is de reden ervan, want dan kun je de data veel beter interpreteren. Gestructureerde en ongestructureerde data zijn echter zo verschillend, dat ze ook allebei anders te interpreteren zijn. De enige overeenkomst tussen deze twee is dat de data ofwel door computers ofwel door mensen moet worden gegenereerd. Eigenlijk moeten we deze twee soorten data vaker combineren, want dit zorgt voor relevantere inzichten. Als je de subjectieve, ongestructureerde data bijvoorbeeld combineert met de objectieve, gestructureerde gegevens, krijg je een completer én verrassend inzicht over bijvoorbeeld je klanten.

Investeer in data

De ideale oplossing lijkt dus het combineren van die data te zijn. Perfect, toch? Niet helemaal, als je nagaat dat er wel erg veel nadruk wordt gelegd op het onderscheid tussen de twee soorten data. Ongestructureerde data groeit gevaarlijk hard. Het groeipatroon van deze data verschilt zo dramatisch van die van gestructureerde data, dat we ons bijna zorgen moeten gaan maken. Er moet simpelweg veel tijd worden gestoken in ongestructureerde data, maar dan krijg je ook wat. Alleen gebruikmaken van gestructureerde data zorgt voor een vertekend beeld van de daadwerkelijke situatie, en dat is juist niet wat je wilt als organisatie. Dus verdiep je eens in alle vage e-mails, onoverzichtelijke tekstbestanden en vele PDF’s, en wie weet kom je achter een heel verrassend resultaat!

Want to know more?

We organiseren regelmatig Kennis Bytes. Tijdens deze externe kennisdelingen wordt een datagerelateerd onderwerp uitgebreid behandeld door één van onze data scientists. Elkaar inspireren, jezelf blijven ontwikkelen en altijd nét iets meer willen weten. Daar draait het om!

Wil je meer weten over onze Kennis Bytes en erachter komen wanneer de volgende sessie wordt georganiseerd? Kijk dan snel hier: https://www.tottadatalab.nl/2018/06/19/alles-weten-kennis-bytes/

Posted on 2 augustus 2017

Share the Story

Back to Top