Wat is predictive modelling en hoe werkt het?

predictive-modelling

Data science

Onze data scientist Sabine den Daas geeft samen met Ronald Dirkzwager van zorgverzekeraar ONVZ een presentatie op het MIE. In dit artikel licht ze een tipje van de sluier op over de presentatie op donderdag 2 februari.

Data science. Het woord doet suggereren dat we ons vanuit Totta data lab bezig houden met de wetenschap over data. Schrik niet als je tot de massa behoort die ons ziet als magiërs met cijfers. Ik moet toegeven dat het best leuk is om je voor te doen als een tovenaar, maar er liggen eigenlijk wetenschappelijke algoritmes en wiskundige modellen aan onze resultaten ten grondslag. Ja inderdaad, we zijn gek op wiskunde, puzzels en programmeren.

Random Forest, Neurale Netwerken en Support Vector Machines

Wanneer wij het hebben over predictive modelling, praten wij vaak over algoritmes die ontzettend sterk zijn in het doen van voorspellingen. Wij gebruiken hiervoor de nieuwste Machine Learning technieken zoals Random Forest, Neurale Netwerken en Support Vector Machines.

Over het algemeen kan de voorspelkwaliteit hiervan aanzienlijk verbeteren als de effecten van combinaties van variabelen ook worden meegenomen. Het kan namelijk zo zijn dat naarmate de leeftijd stijgt, de kans op een gebeurtenis toeneemt. Dit betekent echter niet dat dit effect in elke subgroep gelijk is. Misschien is dit effect voor mannen wel anders dan voor vrouwen of gaat het effect na een bepaalde leeftijd niet meer op. Wanneer we deze kruiseffecten mee willen nemen zijn er bij 3 variabelen al minstens 3×2 (6) combinaties om te interpreteren. Wanneer we uitgaan van 10 variabelen zijn dit al minstens 10×9 (90) combinaties.

De black box

Doorgaans zijn 10 variabelen niet voldoende om gedrag van klanten te kunnen voorspellen. Je kunt je dus voorstellen dat het aantal combinaties moeilijk, zo niet onmogelijk voor mensen te interpreteren is. Dit maakt het lastig om de precieze aanleiding tot het gedrag in kaart te brengen. Het gevaar van generalisatie ligt hier ook op de loer. We bekijken immers welke variabelen een rol spelen in bepaalde groep, maar wat als dit op individueel niveau verschillend is? Op het moment dat we de voorspelling nauwkeuriger willen maken stappen we af van generaliserende methodes en gaan we voorspellen op individueel niveau. Deze beweging zorgt wel voor een nauwkeurigere voorspelling, maar laat de waarom-vraag redelijk onbeantwoord. Hierdoor ontstaat de zogeheten ‘black box’. Onze ervaring leert echter dat het voorspellen van wie wat gaat doen vaak juist heel erg pragmatisch is, er kan namelijk direct actie op de output worden uitgezet!

Kom naar het MIE

In meeste probleemstellingen is het belangrijk om nauwkeurig te voorspellen wie of wat een hoge kans heeft op een bepaald event in plaats van dat we weten waarom. Tijdens het MIE zullen we het publiek meenemen in één van onze opdrachten, waarbij we ons focussen op deze wie-vraag.

Meer weten over het detectie algoritme die wij op de declaratie data van ONVZ hebben gebouwd om op individueel niveau verhaalschade te identificeren? Kom dan kijken naar de presentatie van Totta data lab in samenwerking met ONVZ op donderdag 2 februari.

Posted on 30 januari 2017

Share the Story

Back to Top