En je volgende serie op Netflix wordt…

Ingewikkelde formules geschreven op een whiteboard

…House of Cards!

Dit is allemaal het werk van machine learning. Machine learning wordt inmiddels al zo vaak toegepast, dat we het vaak niet eens doorhebben. Je aanbevelingen op Netflix? Machine learning. Je vriendensuggesties op Facebook? Machine learning. Deze aanbevelingen en suggesties zijn allemaal gebaseerd op data. Om het nóg ingewikkelder te maken, kunnen we ook een onderscheid maken tussen supervised learning, unsupervised learning én semi-supervised learning. Als je nu al volledig de weg kwijt bent en denkt dat alleen data scientisten dit begrijpen: geen paniek. Hieronder leggen we alles in begrijpelijke taal uit.

 

Machine learning

De basis van machine learning is simpelweg het kunnen aanpassen aan nieuwe situaties. Machine learning wordt gebruikt om patronen te ontdekken in grote hoeveelheden data. Deze patronen moeten leiden tot relevante en uitvoerbare inzichten. Dit doet de machine door gebruik te maken van algoritmes of modellen die ‘leren’ van de data. Doordat deze algoritmes leren van de data, kunnen ze zelfs voorspellingen doen over de toekomst. Dat ‘leren’ van data kan echter op twee manieren plaatsvinden: supervised en unsupervised.

 

Wat is supervised learning

De naam zegt het eigelijk al; supervised learning is het direct observeren of sturen van een taak, project of activiteit. Er wordt echter geen toezicht gehouden op een persoon, maar op een machine learning model of algoritme. Dit doen we door het model iets te ‘leren’; jij bent dus in principe de ‘leraar’. Je laadt heel veel data, oftewel big data, in het model, zodat het model patronen in deze data kan ontdekken. Op deze manier leert het model van de ingevoerde data, zodat het model door middel van de ontdekte patronen ook voorspellingen kan doen over nog niet ingevoerde data.

 

Hoe ‘leert’ het model met supervised learning?

Maar; hoe ‘leert’ een model dit dan? Dit gebeurt door het model te trainen met data van een gelabelde dataset. Een gelabelde dataset houdt in dat alle gegevens een label hebben en dus bij een bepaalde categorie horen. Denk hierbij bijvoorbeeld aan de labels ‘honden’, ‘katten’ en ‘konijnen’ binnen de dataset ‘huisdieren’. Een model leert dus telkens opnieuw, omdat er continu nieuwe data wordt ingevoerd. Dit proces is vergelijkbaar met een leraar die toezicht houdt op een leerling. Deze leerling wordt steeds slimmer, doordat het telkens dezelfde technieken toepast op iedere keer andere cijfers. En dat is precies wat er bij supervised learning dus gebeurt. Het model ‘leert’ dus met wat voor soort conclusies het moet komen. De enige vereiste is dus dat de mogelijke uitkomsten van tevoren door iemand vastgesteld moeten zijn.

 

Wat is unsupervised learning?

In het geval van unsupervised learning hou je juist geen toezicht op de machine of het algoritme. We laten het model zelf de data ontdekken en ontleden. Dit moet haast wel, omdat de data vaak zo complex is dat deze niet ‘zichtbaar’ is voor de mens. Daarnaast trekt het model conclusies op basis van een niet gelabelde dataset. De mogelijke uitkomsten staan dus nog niet vast; deze kunnen bijvoorbeeld niet beperkt worden tot een hond, een kat of een konijn. De mogelijkheden zijn eindeloos. Je kunt je dus ook voorstellen dat dit model een stuk ingewikkelder is. Wij weten dus vrijwel niets over de data, we zoeken niet naar iets specifieks en we hebben geen idee over de mogelijke uitkomsten. Het uiteindelijke doel is dat jij de data gaat snappen doordat het model de data heeft verwerkt. Toch hebben we totaal geen controle over de data, en dat kan nadelig zijn. We kunnen namelijk niet garanderen dat de uitkomsten van het model of de algoritme accuraat en betrouwbaar zijn.

 

Wat is semi-supervised learning?

Naast supervised en unsupervised learning, hebben we ook nog semi-supervised learning. Deze manier van leren is als het ware een combinatie tussen supervised en unsupervised learning. In dit geval krijgt het model input waarvan een groot gedeelte gelabelled is, maar niet alles. Het gevolg hiervan is dat het model slechts een aantal outputs kan geven, omdat een deel niet gelabelled is. Daarnaast komt het vaak voor dat bepaalde data ontbreekt. Verder wordt er vaak ‘reinforcement’ toegepast bij één van de drie learningtechnieken. Reinforcement is een beloningsmechamisme als er goede associaties tussen de input en de output worden gemaakt door het model. Doordat reinforcement wordt toegepast, leidt dit tot betere resultaten. Zoals de naam ook hier doet vermoeden, verbetert het systeem zichzelf op deze manier.

 

Het brein van de toekomst

De bovenstaande drie technieken worden niet voor niets vergeleken met kunstmatige intelligentie. Het begint er steeds meer op te lijken dat machine learning meer over ons gedrag kan voorspellen dan wijzelf… Dit is nog niet zeker, want de techniek is volop in ontwikkeling. Maar één ding weten we wél zeker: van machine learning komen we niet meer af! Maar het is in sommige gevallen niet zo angstaanjagend als het lijkt… je mist in ieder geval geen goede serie meer op Netflix!

Posted on 23 augustus 2017

Share the Story

Back to Top