Computer Vision: zijn kijkende, beslissende systemen de toekomst?

Computer Vision

De verschillen tussen een camera en een mens? Die zijn eindeloos. Toch worden deze verschillen langzaam maar zeker minder, zeker als het aankomt op beelden identificeren. Maar een camera registreert alleen beelden, terwijl een mens beelden daadwerkelijk begrijpt en hier acties aan koppelt. Hoe lang dit onderscheid nog zal voortbestaan? Volgens het vakgebied van Computer Vision niet lang meer.

Computer Vision: wat is het?  

Computer Vision streeft ernaar om kunstmatige systemen beelden te laten begrijpen. Allerlei computers, camera’s en apparaten moeten in staat zijn om afbeeldingen en video’s zowel te analyseren als te interpreteren. Uiteindelijk moeten de systemen zelfstandig beslissingen kunnen nemen op basis van de geïnterpreteerde beelden. De taken die het menselijke, visuele systeem uitvoert, kan een kunstmatig systeem straks ook. Een efficiënte uitvinding voor veel businessgebieden. Computer Vision gaat dus een stuk verder dan het simpelweg registreren van beelden.

Hoe werkt Computer Vision?

Computer Vision is gebaseerd op deep learning. Dit is een vorm van machine learning die gebruikmaakt van de architectuur van ons brein. Deep learning streeft ernaar om een systeem zelf voorspellingen te laten doen en beslissingen te laten uitvoeren op basis van de context. Net zoals ons brein dus.

Beelden bestaan uit eindeloos veel pixels, oftewel ongestructureerde data. Niet alleen het menselijk brein, maar ook kunstmatige systemen zijn straks in staat om van deze brei aan pixels een gestructureerde dataset te maken. Het menselijk brein doet dit automatisch, terwijl het systeem een technisch stappenplan kent. Tijdens de eerste stap gaat het systeem op zoek naar bepaalde kenmerken in het beeld. Deze kenmerken worden vooraf gecommuniceerd naar het systeem; dit betreft dus de input. Denk hierbij aan vormen, randen en kleuren. Deze kenmerken vormen samen een object. Als een systeem dit doorheeft, kan het precieze object worden opgespoord binnen het beeld. Vervolgens weet het systeem waar het object zich binnen het beeld bevindt, en hoeveel objecten ervan zijn. Daarnaast kan het systeem de status en de kwaliteit van het object bepalen.

Een populaire toepassing: gezichtsherkenning

Computer Vision zie je vooral terugkomen in de gezichtsherkenningstechnologie. Denk hierbij aan de voorgestelde tags op Facebook of aan de paspoortcontrole bij de e-gates op Schiphol. Bij gezichtsherkenning wordt de geanalyseerde data vergeleken met een bepaalde database, net zoals bij vingerafdrukken. Het systeem kijkt heel nauwkeurig naar de afstand tussen bijvoorbeeld de neus en de mond. Daarnaast analyseert het systeem hoe pixels zich clusteren om gezichtskenmerken te vormen. Gezichtsherkenning kan zeer effectief zijn: zo kunnen verdachte personen sneller worden opgespoord. Het succes hiervan hangt echter af van 2 factoren: de omvang van de gebruikte database en de kwaliteit van het beeldmateriaal.

Digital Image Processing versus Computer Vision

Computer Vision lijkt verdacht veel op Digital Image Processing, maar toch zijn er aanzienlijke verschillen tussen deze technieken. Computer Vision is namelijk de uitgebreide versie van Digital Image Processing. Ten eerste worden bij Computer Vision assumpties over de wereld om ons heen als input gegeven. Ten tweede streeft Computer Vision ernaar om zelfstandig genomen beslissingen als output te verkrijgen.

Stel je voor dat we een robot – inclusief camera en parachute – uit een vliegtuig gooien. Bij Digital Image Processing kan de robot de naderende omgeving identificeren als bijvoorbeeld ‘land’, ‘zee’ en ‘bergen’. De robot weet echter niet wat land precies is, en wat de zee zoal doet. Bij Computer Vision worden daarentegen contextrelevante aannames meegegeven aan de robot. Denk hierbij aan ‘Het is slecht om in lava te landen’ en ‘Dit is wat de zee precies doet’. De robot kan op basis van deze assumpties zelf beslissen waar te landen.

De toekomst van Computer Vision

Op dit moment zijn kunstmatige systemen behoorlijk goed in staat om te zien en te begrijpen. Computer Vision streeft ernaar om deze processen te verbeteren, met name het reactievermogen van een systeem. Dit is bijvoorbeeld nodig om zelfrijdende auto’s te verwezenlijken.

Maar deze toekomst is dichterbij dan we denken. Piccadilly Circus, een van de beroemdste pleinen in Londen, heeft sinds kort een enorm digitaal billboard. En niet zomaar een billboard, maar eentje die voertuigen, leeftijden, weersomstandigheden en zelfs emoties van passanten kan herkennen. Op deze manier kan het billboard gepersonaliseerde advertenties inzetten. Maar dagelijks passeren talloze mensen Piccadilly Circus. En hoe groot is de kans dat deze mensen zich allemaal hetzelfde voelen? Het zal moeten blijken, maar het belooft nu al veel goeds.

Want to know more?

Ben je benieuwd naar wat wij nog meer in petto hebben als het gaat om data science? Neem dan contact op met Jesse Luk via jesse@tottadatalab.nl. Je kunt natuurlijk ook even bellen naar 020 514 1328.

Posted on 13 maart 2019

Share the Story

Back to Top