Big data en data science

data science

Wat is big data en data science?

Er is in de afgelopen jaren over niets zoveel geschreven als over het onderwerp big data. Net als big data heeft ook de term data science flink aan populariteit gewonnen. Maar wat betekenen deze termen nu eigenlijk?

Wat is big data? De drie factoren.

Een vaste definitie is er eigenlijk niet, althans niet eenduidig. We kunnen grofweg drie factoren onderscheiden die bijdragen aan big data:

  • De hoeveelheid
  • De snelheid van generatie
  • Het opvragen en de diversiteit van de data

Data is overal

Vaak wordt er gesproken over big data wanneer een dataset te groot is om te hanteren met de traditionele database systemen zoals SQL. Dit is tegenwoordig steeds vaker het geval doordat er meer data dan ooit wordt gecreëerd en opgeslagen. Op dit moment is grofweg 90% van de data in de hele wereld gedurende de afgelopen twee jaar gegenereerd. Denk aan bronnen als: social media kanalen, Netflix, sensoren, YouTube-video’s of GPS-signalen. Deze enorme groei is onder andere ontstaan door consumenten zelf, maar bijvoorbeeld ook door het Internet of Things (IoT).

Apache, Hadoop en Spark

Een oplossing om toch met deze data om te kunnen gaan is door deze te distribueren over meerdere systemen. Om de gedistribueerde data op te slaan en te verwerken is speciale software beschikbaar, zogenaamde big data frameworks. Voorbeelden hiervan zijn: Apache, Hadoop en Spark.

Wat is data science?

Data science is de wetenschap die zich bezighoudt met processen en systemen om waardevolle kennis en inzichten te verzamelen uit de onmetelijke hoeveelheid data die we dagelijks genereren. Zowel gestructureerde data als ongestructureerde data. De groeiende datamassa heeft veel waarde. En hoe slimmer deze data gestructureerd en gecombineerd kunnen worden, des te meer nieuwe waardevolle producten hieruit gecreëerd kunnen worden. Daarom hebben big data tot de opleving van het vakgebied data science gezorgd.

Data scientists weten hoe ze met deze big data moeten omgaan. Ze hebben kennis van traditionele dataverwerking en data-analyse en computerkunde. Maar zij zijn ook in staat om voorspellende modellen op individueel niveau te programmeren. Daarnaast moet een data scientist nieuwsgierig en ondernemend zijn. Hij of zij gaat problemen niet snel uit de weg en houdt ervan om zich vast te bijten in problemen die anderen niet kunnen oplossen.

Posted on 14 juni 2017

Share the Story

Back to Top