Wat is datapreparatie en waarom is het zo belangrijk?

Datapreparatie

Data scientisten zijn gemiddeld zo’n 80 procent van hun tijd kwijt aan datapreparatie. Daarnaast vinden de meeste data scientisten datapreparatie het minst leuke onderdeel van hun baan. Toch zal datapreparatie voorlopig niet verdwijnen. Integendeel. Datapreparatie komt bij elk project wel om de hoek kijken. En laten er nou steeds meer projecten bijkomen, aangezien de hoeveelheid data wereldwijd nog dagelijks groeit. Maar er is goed nieuws voor data scientisten: datapreparatie wordt langzaamaan eenvoudiger. Hierdoor is de kans groot dat zij straks minder tijd kwijt zijn aan datapreparatie. Sterker nog: door de komst van self-service tools hoef je straks geen data scientist meer te zijn om data te prepareren. Maar waar komt datapreparatie in essentie eigenlijk op neer? En waarom is het zo belangrijk?

Wat is datapreparatie?

Datapreparatie komt neer op het opschonen en klaarstomen van zogenaamde ‘raw data’, ook wel ruwe, pure data genoemd. Deze data kan afkomstig zijn van de meest uiteenlopende databronnen. Ruwe data is direct afkomstig van een bron, dus nog volledig onaangetast. Deze data wordt uiteindelijk omgezet naar data die direct en accuraat geanalyseerd kan worden, bijvoorbeeld voor businessdoeleinden. Het ‘omzetten’ van pure data naar analyseerbare data is echter geen eenvoudig proces. Als je de data niet (goed) prepareert, dan loop je bij de uiteindelijke data-analyse tegen fouten en oneffenheden aan die vaak lastig terug te draaien zijn.

Waarom is datapreparatie belangrijk?

Alleen op basis van volledig accurate data kan een business beslissingen nemen. Dit houdt in dat de data van hoge kwaliteit moet zijn en geen onnodige fouten mag bevatten. Daarnaast kun je betere beslissingen nemen voor je business als je data van betere kwaliteit is. In dit geval kun je namelijk sneller en makkelijker data analyseren, en daaropvolgend snellere en efficiëntere beslissingen nemen. Maar voordat je dit kunt doen, moet de data eerst flink onder handen worden genomen. Tijdens dit opschoonproces kun je tegen 2 soorten fouten aanlopen:

  1. Systematische fouten. Deze fouten komen vaak terug bij grote hoeveelheden data. Aangezien grote hoeveelheden data vaak van allerlei bronnen afkomstig zijn, is de kans op reeds aanwezige fouten – zoals missing values en outliers – groter.  
  2. Individuele fouten. Deze fouten zijn gemaakt tijdens de invoer van de data(sets) in bijvoorbeeld een datacatalogus. Dit zijn dus geen fouten die oorspronkelijk al aanwezig waren. Aangezien deze fouten alleen bij de invoer zijn gemaakt, is de impact op de rest van de data minimaal.

Als je deze fouten eenmaal hebt opgespoord tijdens de eerste stap(pen) van datapreparatie, dan dien je ze eigenlijk direct op te lossen. Want als je eenmaal een aantal stappen verder bent, dan is het een stuk lastiger om deze ‘fouten uit het verleden’ te herkennen en op te lossen.

Datapreparatie volgens de 5 D’s

De specifieke stappen die je moet doorlopen om data te prepareren, verschillen per industrie en organisatie. Toch is er een algemeen stappenplan dat je moet doorlopen om je data te prepareren: het stappenplan van de 5 D’s.

1. Discover: de meest geschikte data vinden voor een bepaald doel. Een accurate, goed gedocumenteerde datacatalogus creëren is hierbij essentieel. Hier sla je al je data(bronnen) op, zodat je duidelijk op een rijtje hebt hoe je verzamelde datasets eruitzien en waar deze vandaan komen. Data kan afkomstig zijn uit bestaande datasets of ad hoc worden toegevoegd. Dit laatste komt neer op het eenmalig toevoegen van een bepaalde dataset, aangepast aan de situatie.

2. Detain: data selecteren uit je datacatalogus. Je duikt nu echt diep in je data. Je moet erachter zien te komen op welke manier welke data waardevol kan zijn voor een bepaald doeleinde.

3. Distill: het opschonen en valideren van data. Het is cruciaal om foutieve data te verwijderen, ontbrekende data aan te vullen en datapoorten te beveiligen. Na deze ‘cleanup’ moet de data gevalideerd worden door te testen of de data fouten bevat. Hier komt vaak nog meer aan het licht dan men in eerste instantie dacht.

4. Document: het verrijken van data. Je dient het format waarin de data zich bevindt, te transformeren naar een up-to-date en begrijpelijk format. Denk hierbij aan het toevoegen van technische definities, metadata, business-termen, et cetera. Alleen op deze manier kan een goed gedefinieerde uitkomst tot stand komen.

5. Deliver: de data op de juiste manier opslaan en delen met de eindgebruiker(s). Dit doe je in bijvoorbeeld een Business Intelligence-tool. Hierdoor kunnen eindgebruikers direct aan de slag met de data.

Snel, makkelijk en efficiënt

Idealiter is datapreparatie een proces dat zichzelf continu herhaalt. Zo maken gedeelde (meta)datasets, gecontroleerde opslag en herbruikbare transformeer- en opschoontechnieken, datapreparatie efficiënt, consistent en voor herhaling vatbaar. Op deze manier wordt het eenvoudiger voor eindgebruikers om zelf met data aan de slag te gaan. Sterker nog: self-service datapreparatietools zijn in opkomst, waardoor je straks geen data scientist meer hoeft te zijn om data te prepareren. Daar zullen de data scientisten onder ons vast blij mee zijn!

Posted on 11 september 2019

Share the Story

Back to Top