Dataclassificatie en dataclustering: hoe werkt het?

Verschillende nootjes gesorteerd in groepjes; soort bij soort

Je data op orde krijgen: mission impossible?

Dat er tegenwoordig extreem veel data te vinden is, wisten we al. Dit komt niet alleen door online platformen zoals Facebook en LinkedIn, maar ook door het toegenomen mailverkeer. Bedrijven verliezen vaak het overzicht door de vele mails die dagelijks binnenstromen en willen hier graag structuur in aanbrengen. Een onderscheid maken tussen mails met klachten, sollicitaties, vragen, et cetera is namelijk essentieel voor goed projectmanagement. Je kunt hierbij gebruikmaken van twee ‘sorteertechnieken’ van machine learning: clustering en classificatie. Dit zijn twee technieken die voor verschillende doeleinden en vraagstellingen gebruikt worden. Het verschil tussen deze twee technieken is niet alleen belangrijk voor de zoektocht naar passende oplossingen, maar kan ook helpen om een organisatie datagedreven te maken.

 

Het doel van clustering

Een clusteranalyse wordt gebruikt om te analyseren of er clusters (groepen) in je data aanwezig zijn. Zo kun je een clusteranalyse toepassen om bijvoorbeeld te ontdekken of er verschillende marketingsegmenten aanwezig zijn binnen jouw klantenbase. Je kunt een clusteranalyse tevens gebruiken om te onderzoeken of bepaalde producten dezelfde kenmerken hebben.

 

Wat is clustering?

Een clusteranalyse wordt uitgevoerd door op zoek te gaan naar de overeenkomsten tussen objecten binnen een dataset. Je zoekt naar patronen of relaties tussen objecten binnen een dataset op basis van kenmerken van die objecten. Nadat je eventuele verbanden tussen de objecten hebt gevonden, ga je de objecten indelen in verschillende groepen. Zo kun je bijvoorbeeld e-mails indelen op basis van verbanden die worden gevonden in de tekst, de lengte van het bericht of het moment van verzenden. Je weet van tevoren niet onder welke categorieën de e-mails kunnen vallen. Belangrijk om te onthouden is dat deze groepen echt zijn gebaseerd op de kenmerken van de objecten van de dataset. Je kunt deze groepen dus niet bepalen zonder de dataset eerst uitgebreid te hebben geanalyseerd en te hebben beoordeeld op kwaliteit.

 

De visualisatie van clustering

Het uiteindelijke doel van een clusteranalyse is het vormen van verschillende groepen, ook wel deelverzamelingen genoemd. Iedere verzameling bevat eigen kenmerken en verschilt van de andere deelverzamelingen. Je bepaalt zelf welke kenmerken worden meegenomen in de clustering, maar het algoritme bepaalt of deze kenmerken de verschillen tussen de groepen bepalen. Om de verschillende groepen te visualiseren, kan bijvoorbeeld gebruik worden gemaakt van een dendrogram. De dendrogram kent een boomstructuur, die duidelijk weergeeft hoe de verschillende groepen – met ieder eigen objecten en dus kenmerken – zich ten opzichte van elkaar verhouden. Veel van deze dendrogrammen zijn hiërarchisch van aard. Hoe hoger een groep staat in een dendrogram, des te algemener de objecten en des te breder de bijbehorende kenmerken.

 

voorbeeld_dendrogram

Voorbeeld dendrogram

Het doel van classificatie

Het doel van classificatie is berekenen tot welke groep(en) nieuwe observaties – bijvoorbeeld e-mails- horen. Zo wordt het mogelijk om nieuwe en nog niet geclassificeerde berichten, bijvoorbeeld overige e-mails, alsnog in te delen binnen bestaande categorieën.

 

Wat is classificatie?

Clustering is niet de enige manier om meer uit je data te halen; met classificatie is dit ook mogelijk. Bij een clusteranalyse worden de groepen enkel bepaald aan de hand van de gebruikte data. Bij classificatie gebeurt juist het tegenovergestelde. De groepen waarin de objecten moeten worden verdeeld, worden van tevoren al vastgesteld op basis van expert knowledge. De patronen en relaties in de data worden vervolgens gebruikt om de groepen te identificeren. Oftewel, de groepen bij een classificatie zijn van tevoren bekend en met behulp van je data worden de observaties bij de groepen ingedeeld. Een voorbeeld hiervan is e-mailclassificatie. Door middel van bestaande contactformulieren op je website kunnen de categorieën worden vastgesteld. Op basis van de eigenschappen van een e-mail worden de patronen berekend die verklaren waarom de e-mails zijn verdeeld in bepaalde categorieën. Nieuwe e-mails kunnen ingedeeld worden in een categorie, doordat het patroon van de desbetreffende e-mail vergelijkbaar is met reeds bestaande categorieën. Classificatie wordt dus niet voor niets typologie of categorisatie genoemd.

 

Verschillen dataclustering en dataclassificatie

Dat er sprake is van een groot onderscheid tussen clustering en classificatie is nu duidelijk. We hebben de twee belangrijkste verschillen hieronder voor je op een rijtje gezet. Classificatie versus clustering betekent:

Groepering onbekend versus groepering bekend

Bij clustering is de groep waarbij de objecten van een dataset behoren vooraf onbekend. Hierbij wordt voornamelijk naar de patronen in de data gekeken om observaties die op elkaar lijken zoveel mogelijk in dezelfde groep te plaatsen (between difference). Deze groepen verschillen dan ook van de observaties die niet in dezelfde groep zijn geplaatst (within difference). Bij classificatie stel je juist wél van tevoren vast welke categorieën er zijn. Je kijkt of patronen in een dataset overeenkomen met de observaties uit een gedefinieerde groep. Die groepen worden gedefinieerd door een expert aan de hand van het bijbehorende businessvraagstuk. Daarnaast analyseer je hoe deze observaties geïdentificeerd kunnen worden als één van deze groepen en analyseer je hoe deze verschillen van de observaties in andere groepen.

Data versus trainingset

Observaties worden apart gehouden in een zogenaamde testset, omdat de groepen van tevoren gedefinieerd zijn. Op deze manier kan de classificatie leren van de andere observaties uit een trainingset. Een out-of-sample voorspelling op deze testset wordt hierdoor meetbaar in termen van modelprestaties en nauwkeurigheid.

 

Voorbeelden uit ons dagelijks leven

We hebben een aantal voorbeelden uit ons dagelijks leven als uitgangspunt genomen om deze twee specifieke technieken beter toe te lichten.

 

Voorbeelden van dataclassificatie zijn:

  1. Mails indelen in de groepen ‘spam’ en ‘geen spam’.
  2. Een verzekeringsmaatschappij die een onderscheid maakt tussen de groepen ‘klanten met een hoog risico’ en ‘klanten met een laag risico’.
  3. Identificeren welke klanten met grote waarschijnlijkheid hun abonnement gaan opzeggen. Dit wordt ook wel churn voorspellen genoemd.
  4. Het vroegtijdig signaleren van bijvoorbeeld wanbetalingen.

 

Voorbeelden van dataclustering zijn:

  1. Het groeperen van zoekresultaten.
  2. Netflix die jou een serie aanraadt. Andere gebruikers in hetzelfde cluster – die ongeveer dezelfde series als jij bekijken – hebben deze serie namelijk ook bekeken en positief beoordeeld.

 

Je kunt je dus voorstellen dat een onderverdeling maken van eenzelfde dataset bij clustering anders verloopt dan bij classificatie. Bij clustering kunnen immers groepen ontstaan die je zelf nog niet gedefinieerd had. Het kan ook voorkomen dat je groepen mist waarvan je had gehoopt dat deze wel zouden ontstaan. Wanneer je welke techniek gebruikt, hangt af van de complexiteit van je data en welke vraag je uiteindelijk wilt beantwoorden.

 

Posted on 18 oktober 2017

Share the Story

Back to Top