Telefoongesprekken classificeren: lexica of annotatie?

telefoongesprekken lexica annotatie

Stel, een organisatie wil weten hoeveel van haar telefoongesprekken over facturen gaan. Uit een analyse blijkt dat 80 procent van alle gesprekken het woord ‘factuur’ bevat. Alarmerend veel, volgens de financieel directeur. Daarom worden alle facturen gespecificeerd, vereenvoudigd en verlaagd. Helaas zonder resultaat.

Weet wat je wilt weten

Veel gesprekken gingen namelijk niet over facturen zelf, maar bijvoorbeeld over de levering of communicatieproblemen. Daarom moet je duidelijk voor ogen hebben wat je precies wilt weten van telefoongesprekken. Alleen dan kom je tot waardevolle inzichten. Er zijn twee manieren om dit te doen: lexica en annotatie. Beide methoden vergen veel geduld, maar dit dwingt je wel om écht naar klanten te luisteren.

Methode 1: lexica

Een lexicon (meervoud lexica) is een samengestelde woordenlijst die representatief is voor één thema of onderwerp. Deze woordenlijst stel je zelf op door naar telefoongesprekken te luisteren. Je selecteert gesprekken met woorden als ‘factuur’, ‘duur’ en ‘geld’. Hoe meer gesprekken je beluistert, des te nauwkeuriger en representatiever je lexicon wordt.

Je voegt naar verloop van tijd ook andere woorden toe, bijvoorbeeld ‘onverwachte kosten’. Bovendien kun je met een uitgebreider lexicon sneller beoordelen of een gesprek daadwerkelijk over een factuur gaat, omdat je na een tijdje ‘typerende’ woorden hebt verzameld. Alle gesprekken die je hebt beluisterd, verwerk je in een gesorteerde lijst. Hoe meer woorden uit het lexicon in een nieuw, beluisterd gesprek voorkomen, des te hoger het gesprek in de ranking eindigt.

Winnen met WordScore

Tegen de tijd dat er een redelijk representatief lexicon is ontstaan, kan het algoritme WordScores je luistertaak overnemen. Dit algoritme vindt bestaande en nieuwe woorden in gesprekken, zodat het lexicon accurater en waarschijnlijk ook groter wordt. WordScores beoordeelt woorden en geeft deze scores, en stelt op basis daarvan een gesprekkenranglijst op.

Het algoritme vertelt je dus niet waar de gesprekken over gaan, maar alleen welke woorden bij elkaar horen en representatief zijn voor bijvoorbeeld facturen. Daarom zorgt de combinatie van WordScores en een ‘echt’ luisterend oor voor een win-winsituatie. Je vindt namelijk niet alleen meer woorden door zelf te luisteren, maar ook door WordScores. Een uitgebreider lexicon zorgt er weer voor dat meer relevante gesprekken gevonden worden, door jou en door WordScores.

Techniek achter het algoritme

De gesprekkenranglijst van WordScores komt niet zomaar tot stand. Het algoritme plaatst een gesprek in Set A of Set B. Set A bevat alle gesprekken waarin minstens een van de lexicon-woorden (die jij dus al hebt verzameld) voorkomt. Set B bestaat uit alle overige gesprekken. Meestal bevat set A een paar gesprekken die geen enkel lexicon-woord bevatten.

Het algoritme stopt met lexiconuitbreiding als er (bijna) geen nieuwe gesprekken meer worden toegevoegd door het algoritme. Op dat moment weet je dat het lexicon de meest nuttige woorden bevat. Set A bestaat meestal uit 10 en 40 procent van alle gesprekken, afhankelijk van het onderwerp.

Niet alleen de geselecteerde gesprekken hebben een rangorde, maar het lexicon ook. Het algoritme berekent – per woord – het verschil tussen twee sets. Deze berekening vindt plaats voordat het woord op een plek in het lexicon wordt gezet. Het rekensommetje is als volgt: (% set A – % set B) / (% set A + % set B). Hieruit rolt een score tussen -1 en 1. Hoe hoger de score, des te hoger de ranking van het woord in het lexicon. Dit gaat door totdat set A niet meer kan groeien met ‘nieuwe’ gesprekken, waardoor het lexicon dus ook niet meer groeit.

Rekenvoorbeeld WordScores

Je kiest 5 woorden (factuur, facturen, betalen, rekening en geld) en analyseert 10.000 gesprekken. De analyse laat zien dat 500 gesprekken de hiervoor genoemde woorden bevatten. Deze 500 gesprekken noem je set A; de overige 9.500 gesprekken noem je set B. Het algoritme maakt ondertussen een ranking van de woorden door te kijken naar de verschillen tussen de twee sets. Het algoritme geeft alle woorden uit het lexicon automatisch score 1, omdat in geen enkel gesprek uit set B een woord uit het lexicon voorkomt.

Je kunt het lexicon uitbreiden door te kijken naar de woorden die goed scoren (bijv. 0,85 of hoger). Dit levert woorden op als ‘IBAN’, ‘automatische incasso’ en ‘onverwacht’, maar ook andere irrelevante woorden die per toeval vaak in set A terechtkomen (‘woensdagmiddag’, ‘gebeld’ en ‘zestig’). Dit proces herhaal je een paar keer, zodat je eindigt met een goed lexicon, inclusief representatieve woordscore.

Classificatie

Als je het lexicon goed op een rij hebt, kun je verschillende dingen doen op het gebied van verdere gespreksclassificatie. Een door ons beproefde techniek is woordweging: hoe vaak komt een woord in een gesprek voor? Maar woordweging komt niet alleen neer op ranking, maar ook op andere variabelen. Denk aan gesprekslengte, zekerheid van een spraakherkenner over het herkende woord, woordfrequentie in gesprekken en het aantal unieke woorden per gesprek.

Dit leidt uiteindelijk tot één lijst gesprekken per onderwerp, gesorteerd naar score. Kortom, classificeren is het omgekeerde van WordScores: je gaat van woorden scores geven door gesprekken te tellen, naar gesprekken scores geven door woorden te tellen.

Grijs gebied

Deze lijsten geven antwoord op de vraag: ‘Wat zeggen klanten over onderwerp X?’. Toch is het zo dat klanten vaak zó veel over een onderwerp zeggen, dat het onmogelijk is om alle gesprekken die hierover gaan te beluisteren. Bovendien merk je dat – als je dit wel doet – lang niet alle woorden uit het lexicon daadwerkelijk over bijvoorbeeld facturen gaan. Woorden in een bepaalde context interpreteren, is (nog) niet eenvoudig voor WordScores.

Het liefst zou je een harde scheidingslijn willen trekken: wanneer gaat een gesprek wél over facturen, en wanneer niet? Gaat de opmerking ‘Ik wil mijn facturen bekijken, maar ik kan niet inloggen’ over facturen of over websiteproblematiek? Bovendien staan de gesprekken in dit ‘grijze’ gebied niet altijd in de juiste rangvolgorde. Dit los je op door woordweging slim aan te pakken en naar verschillende variabelen te kijken, wat hierboven al is toegelicht. Maar ondanks dit blijft het grijze gebied bestaan. Als je een gedegen, kwalitatieve analyse wilt, is een annotatie een betere optie.

Methode 2: annotatie

Een annotatie is een opmerking die je bij een gesprek plaatst. Die opmerking kan heel simpel zijn, bijvoorbeeld ‘Dit gesprek gaat wel/niet over facturen’, ‘De klant is geïrriteerd/tevreden’ of ‘De call agent krijgt een 8 voor klantvriendelijkheid’. Annoteren betekent dat je tijdens het luisteren een label (annotatie) toevoegt aan een gesprek. Het voordeel is dat je meestal niet het hele gesprek hoeft te beluisteren. Het begin (de klantvraag) en het einde (de oplossing) zijn vaak voldoende. Doe dit vaak genoeg en na verloop van tijd kan een algoritme ook deze taak van je overnemen.

Het nadeel is dat je meer telefoongesprekken moet beluisteren dan bij lexica. Bij annoteren bepaalt het algoritme zélf welke woorden (in welke mate) belangrijk zijn voor de classificatie. Dit in tegenstelling tot lexica waarbij je het algoritme vertelt welke woorden je nodig hebt om te classificeren. Daarom heeft het algoritme bij annotatie veel voorbeelden nodig om de ‘juiste’ woorden te kunnen bepalen voordat gesprekken geïnterpreteerd kunnen worden.

Externe factoren

Hoeveel telefoongesprekken dit zijn, hangt af van het thema dat je onderzoekt. Daarnaast hebben het onderwerp, de emotie en de empathie in gesprekken invloed op het aantal gesprekken dat je moet luisteren. Dit zijn algemene richtlijnen:

1. Het onderwerp. Na ongeveer 200 gesprekken kun je al redelijk goed inschatten of gesprekken over facturen gaan of niet.

2. De emotie. Lastig, aangezien de computer van elk woord zeker moet weten welke emotie daarbij hoort. Vaak heb je hier duizenden telefoongesprekken voor nodig.

3. De empathie van de call agent. Zelfs 10.000 gesprekken zijn niet genoeg. Je moet met van alles rekening houden: de manier van reageren, of het belscript gehandhaafd wordt, of alle verplichte gesprekselementen aan bod komen, et cetera. Hier is dus een ingewikkeld algoritme voor nodig.

Wat kies je?

Of je voor lexica of annotatie gaat, hangt af van wat je precies wilt onderzoeken. Met onderstaande tabel kun je beter voor jezelf bepalen welke methode het beste bij jouw businessvraag past. Zo weet je zeker dat je het maximale uit de telefoongesprekken van jouw bedrijf haalt, op een efficiënte manier.

Kortom: je kunt op twee manieren telefoongesprekken indelen naar onderwerp (classificeren). Het gaat hier om duizenden gesprekken die je onmogelijk allemaal zelf kunt beluisteren. Je hebt twee keuzes: kijk naar de woorden (lexicon-methode) of kijken naar de gesprekken (annotatie-methode). Je kunt zowel woorden als gesprekken tellen én sorteren, maar het levert niet hetzelfde op. Aan jou – en je businessdoelen – de keus!

Referenties

1) Laver, M., Benoit, K., & Garry, J. (2003) Extracting policy positions from political texts using words as data. American Political Science Review 97:311-31.

2) Monroe, B.L., Colaresi, M.P. & Quinn, K.M. (2009) Fightin’ Words: Lexical Feature Selection and Evaluation for Identifying the Content of Political Conflict. Political Analysis Advance Access February 16, 2009.

Posted on 6 maart 2020

Share the Story

Back to Top