Hadoop; een probleemoplossend softwarenetwerk voor big data

Basisprincipes

Hadoop is een open-source softwarenetwerk waar grote hoeveelheden data, oftewel big data, kunnen worden opgeslagen en geanalyseerd. Deze data wordt opgeslagen op verschillende drives. Hierdoor verloopt de analyse sneller dan als het op één drive wordt opgeslagen. In principe kunnen alle soorten en maten data verwerkt worden; van logs tot cookies en van eventdata tot content van sociale media. Daarnaast hoef je je data niet van tevoren te verwerken en kun je je data eenvoudig aanpassen.

Partners

Het Hadoop-framework is oorspronkelijk geschreven door Java. Tegenwoordig is het een ontwikkelingscommunity die bestaat uit duizenden vrijwilligers en professionals. Zij bieden zelf vrije software aan. Bedrijven die hieraan bijvoorbeeld meewerken zijn: LinkedIn, Microsoft en IBM.

Voordelen Hadoop

Hoewel het tegenwoordig steeds makkelijker wordt om grote hoeveelheden data op te slaan op het web, komen er verschillende problemen bij kijken. Hadoop lijkt passende oplossingen te hebben voor deze problemen. Eén van deze problemen is de snelheid van de analyse van een drive die big data bevat; deze is erg langzaam. Daarom wordt er hier gebruikgemaakt van meerdere drives die tegelijkertijd geanalyseerd kunnen worden. Iedere drive bevat een klein stukje data; deze worden parallel aan elkaar geanalyseerd. Bovendien kun je in Hadoop kleine stukjes data van verschillende datasets op één drive plaatsen. Hierdoor wordt de drive volledig benut én kan de analyse snel plaatsvinden. Hier wordt een ‘shared-access’ aan gekoppeld zodat diverse gebruikers toegang hebben tot de datasets.

Nadelen Hadoop

Toch zit hier een risico aan verbonden:

  • Er worden nu namelijk zoveel drives gebruikt, dat de kans groot is dat er één crasht. Om te voorkomen dat belangrijke data op deze manier verloren gaat, wordt er gebruikgemaakt van het Hadoop Distributed File System (HDFS). Met dit systeem wordt een replicatie, oftewel een kopie, van iedere drive gemaakt. Op deze manier gaan belangrijke gegevens nooit verloren.
  • Een ander risico is dat het analysesysteem geen mogelijkheid krijgt om verschillende drives tegelijkertijd te analyseren, aangezien de datasets zijn verdeeld. Een andere tool, MapReduce, voorziet de gebruiker van een programmeermodel dat deze parallelanalyse mogelijk maakt.

Want to know more?

We organiseren regelmatig Kennis Bytes. Tijdens deze externe kennisdelingen wordt een datagerelateerd onderwerp uitgebreid behandeld door één van onze data scientists. Elkaar inspireren, jezelf blijven ontwikkelen en altijd nét iets meer willen weten. Daar draait het om!

Wil je meer weten over onze Kennis Bytes en erachter komen wanneer de volgende sessie wordt georganiseerd? Kijk dan snel hier: https://www.tottadatalab.nl/2018/06/19/alles-weten-kennis-bytes/

Posted on 21 juni 2017

Share the Story

Back to Top