Give us a like and we'll keep you in the loop.

We use cookies

We use cookies and other tracking technologies to improve your browsing experience on our website, to show you personalized content and targeted ads, to analyze our website traffic, and to understand where our visitors are coming from. By browsing our website, you consent to our use of cookies and other tracking technologies.
Magazine met nieuws uit én over communicatieland. Geschreven door studenten en docenten van de opleiding Professionele Bachelor Communicatiemanagement van Hogeschool PXL.

Your voice, your control

Ik heb Toon van Waterschoot geïnterviewd. Toon is onderzoeker en professor aan KU Leuven. Zijn bureau bevindt zich in het departement Elektrotechniek – ESAT in Heverlee. Hij omschrijft zichzelf als een heel nieuwsgierig persoon. De professor doet onderzoek naar “geluid”. Niet onbelangrijk in marketing en communicatie.

by Jeroen Wintermans
by Jeroen Wintermans

Het onderwijs en het onderzoek zijn grotendeels aan elkaar gekoppeld maar ook niet volledig. In het eerste jaar geeft Toon wiskunde, wat een algemeen vak is. Omdat die studenten later voor verschillende specialisaties kiezen, moeten zijn lessen ook algemeen blijven. Af en toe haalt hij voorbeelden vanuit zijn eigen onderzoeken aan maar niet te vaak om het zo algemeen mogelijk te houden. Anderzijds geeft Toon les in het laatste jaar, waar hij net heel specifieke expertise moet tonen.

Het thema van zijn onderzoeken is geluid. Hij is daarin terechtgekomen omwille van persoonlijke interesses. Op jonge leeftijd was Toon al enorm gefascineerd door geluid en vooral door muziek. Daarom heeft hij ook lang getwijfeld tussen een muzikale toekomst en een carrière als ingenieur. Uiteindelijk koos hij voor de tweede mogelijkheid waarin hij zijn domein wel duidelijk afbakent in geluid door zijn persoonlijke interesses. Dat betekent dat hij met zijn team alles met geluid onderzoekt. Daarin zijn spraak, muziek, akoestiek en het gebruik van geluid om technische problemen op te lossen de belangrijkste onderwerpen.

De specifieke interesse in geluid is erg persoonlijk. Toon speelt al van jonge leeftijd zelf een muziekinstrument en het leek hem wel te liggen. Daarom koos hij voor deze job. Het is dan ook interessant en opmerkelijk dat alle mensen die hij heeft gerekruteerd voor zijn team ook zelf een instrument spelen als hobby.

by Jeroen Wintermans
by Jeroen Wintermans

Om het te hebben over spraakassistentie merkt Toon dat het meer invloed op hem heeft als onderzoeker dan als gebruiker. Hij heeft bijvoorbeeld een iPhone maar gebruikt zelf nooit zijn ‘Siri’ om dingen aan te vragen. Toch vindt hij spraak wel erg interessant omdat geluid en communicatie daar samenkomen. Het is een manier om via geluid te communiceren. Toon kijkt dan ook naar ‘spraak’ als communicatiedrager of communicatiemiddel. Zeker als er ook op akoestisch vlak naar spraak gekeken wordt. Dan blijkt dat informatie in een spraaksignaal, bijvoorbeeld bij spraakassistenten, sterk vervormd wordt rekening houdend met de akoestiek in een ruimte. Als je bijvoorbeeld een spraakcommando geeft in de microfoon van je smartphone, wordt het begrepen als die dichtbij is. Maar als de telefoon op een afstand ligt en je geeft hetzelfde commando, zal het veel moeilijker zijn om begrepen te worden. Er zijn heel wat spraaksoftware die op die manier niet kunnen werken. Dat komt enkel en alleen doordat de akoestiek van de ruimte daartussen zit en het signaal verstoort. Er is dus ruis tussen het bronsignaal en de ontvanger doordat de akoestiek van de ruimte mee in rekening wordt gebracht.

Dat vindt Toon net boeiend omdat mensen daar veel minder moeite mee hebben dan software. Als ik als interviewer aan de andere kant van de ruimte zou gaan staan, zou ik nog steeds kunnen begrijpen wat Toon zegt maar een machine heeft het daar blijkbaar veel moeilijker mee. Dat betekent dat de ingebouwde intelligentie in apparatuur om automatisch spraak te herkennen, nog niet zo intelligent is als we denken.

Als zijn team werkt rond spraak is het altijd in het Engels. Daar wordt verondersteld dat er geen dialecten zijn. Vanaf het moment dat men naar andere talen gaat kijken waarbinnen dialecten bestaan, wordt het nog veel moeilijker. Het begrijpen van woorden of commando’s is erg taal- en dialectafhankelijk. Als men een algemene spraakassistent zou willen ontwikkelen, zouden alle talen en dialecten erin geïntegreerd moeten zijn en dat is allesbehalve evident. Dat is ook de reden dat veel producten enkel werken in het Engels, bij voorkeur Engels zonder accent.

Volgens Toon kunnen de technieken zeker nog evolueren. Het probleem dat hij al aanhaalde dat de microfoon steeds verder staat van de spraakbron is een evolutie waar we zeker rekening mee moeten houden. Vroeger hielden mensen de microfoon van een klassieke telefoon tegen hun mond en binnenkort leggen we onze smartphone gewoon op tafel om te bellen. We gaan zelfs naar een situatie waarin een toestel ergens in uw huiskamer staat en je er zo tegen spreekt zonder ernaartoe te moeten gaan. Dat is een enorme evolutie in de manier waarop die techniek wordt gebruikt maar die evolutie brengt wel problemen met zich mee die niet zo gemakkelijk op te lossen zijn.

by Jeroen Wintermans
by Jeroen Wintermans

De oplossingen die door de grote commerciële spelers zoals Amazon, Google en Apple ontwikkeld worden, zijn heel complexe technologie. Ze passen bijna allemaal ‘deep learning’ toe. Dat is een techniek voor artificiële intelligentie waarin men een model gaat berekenen dat toelaat alle mogelijke variaties te integreren. Het dient vooral om commando’s bij te sturen en om in staat te zijn commando’s van lage kwaliteitssignalen te herkennen. Toon zelf is er niet van overtuigd dat dit de beste oplossing is omdat er hiervoor heel veel data nodig is. De grote spelers zoals Amazon verzamelen ontzettend veel data. Spraakassistent Amazon Echo neemt permanent microfoonsignalen op en gebruikt die om zichzelf slimmer te maken. Het werkt slechts als je het voor heel veel gebruikers kan doen waarbij je veronderstelt dat ze allemaal dezelfde taal spreken. Dat is ook de reden waarom die oplossingen onderontwikkeld zijn voor de Nederlandse taal gewoonweg omdat de bedrijven niet genoeg signalen en data van gebruikers kunnen verzamelen. Daar stoten we op de limieten van de technische evolutie.

Toon denkt daarentegen wel dat de gebruikers hier klaar zijn voor deze technieken. Maar door het feit dat het niet bestaat in onze taal is de drempel veel groter om de technologie te gebruiken. De grote bedrijven zijn dan ook niet geïnteresseerd in een markt als Vlaanderen. Er bestaan oplossingen in het Chinees en Spaans omdat die markten veel groter zijn dan de onze. We zijn dus vanuit commercieel perspectief niet interessant genoeg. Er gaan pas oplossingen in onze taal komen als er een lokaal bedrijf is dat een businessmodel ontwikkelt dat verschilt met dat van de grote spelers. Die grote bedrijven maken hun producten niet te duur maar verzamelen wel ontzettend veel data van gebruikers zodat ze hun producten kunnen verbeteren. Lokale bedrijven moeten dus een andere technologie ontwikkelen die veel duurder is waardoor ook de productkost enorm gaat stijgen. “Dat is de prijs die wij als gebruiker betalen voor de kleinschaligheid van ons taalgebied”, besluit Toon van Waterschoot.

Handsfree bellen in de auto is een tussenstap voor de afstandskwestie. Al speelt achtergrondlawaai in en rond een auto een grote rol. Meestal is het achtergrondlawaai sterker dat het spraaksignaal als de microfoon verder verwijderd staat.

Een andere erg belangrijke factor is context. In een auto worden spraakassistenten vooral gebruikt om eenvoudige commando’s aan uw gps te geven bijvoorbeeld. Als je eerst een stad dicteert aan je gps en die wordt juist begrepen, weet die al welke mogelijkheden van straten er zijn in die stad. In hetgeen wat je vervolgens dicteert, gaat de gps op zoek naar een beperkt aantal straatnamen die in de stad bestaan. Dat is een veel gemakkelijker probleem dan wanneer je een tekst aan je computer dicteert. Daar is de context veel breder omdat de spraakassistent niet weet wat er gaat komen. Naargelang de situatie waarin je de techniek gebruikt, kan de context informatie geven over hetgeen wat het moet herkennen. Een voorbeeld van een eenvoudig scenario is Google Home, dat gebruikt wordt om domotica zoals het licht in huis te bedienen. Daar zijn maar twee mogelijke commando’s: “licht aan” of “licht uit”. Het ander uiterste is dan bijvoorbeeld een tekst dicteren. Veel van de situaties bevinden zich ergens tussen deze twee uitersten. Ook in een auto is het aantal mogelijke commando’s relatief beperkt. Daardoor kan een spraakassistent ondanks de omgevingsgeluiden er toch mee omgaan.

De technieken in huis zijn tamelijk vergelijkbaar met de technieken in een auto. Met als grootste verschil dat omgevingsgeluid in de auto veel gemakkelijker te voorspellen is dan in huis. Elke auto maakt ongeveer hetzelfde lawaai terwijl in een thuisomgeving het lawaai verschilt van gezin tot gezin. Een familie waar kinderen heel de dag tv kijken, creëert een ander soort lawaai dan een situatie waarbij er een muzikant in huis rondloopt die muziek speelt. In een thuisomgeving is het geluid dus veel meer variabel dan in een auto.

by Jeroen Wintermans
by Jeroen Wintermans

De spraakassistenten in huis werken met ‘key word spotting’. Daarin is het niet van belang hoe de gebruiker zijn vraag formuleert omdat het toestel uit de zinnen context gaat zoeken door de belangrijkste woorden eruit te halen. Op basis van de key words gaat de spraakassistent op zoek naar een heel specifiek domein. Eigenlijk werkt een digitale zoekmachine op dezelfde manier. Gebruikers definiëren de belangrijkste zoekwoorden in Google en geen volledige zin. De stap van een zin naar key words gebeurt als eerste in een spraakassistent om een context in te perken.

Spraakassistentie in bedrijven is nog een stap moeilijker. In een auto of een thuisomgeving zal het apparaat leren wie jij bent. Als je op voorhand de karakteristieken van de stem herkent van bepaalde personen is het gemakkelijker om voor die persoon spraakherkenning uit te voeren. In een bedrijf zou een toestel elke vijf minuten met iemand anders in contact komen en moeten interageren. Dat maakt het voor de spraakherkenner veel moeilijker om interesses en eigenschappen aan een stem toe te kennen. Dat is zeker een beperkte factor om spraakassistenten in publieke ruimtes of winkels te ontwikkelen.

Volgens Toon lijkt het vanuit technisch oogpunt dan ook niet moeilijk om bijvoorbeeld online producten de bestellen. Het zal vooral een commercieel vraagteken zijn welke bedrijven dat willen ondersteunen. De reden waarom Amazon mee in deze technieken zijn gedoken is dan ook omdat ze zelf een webwinkel hebben. Bij de andere spelers zoals Google, Apple en Microsoft is het de vraag aan welke winkels zij zich willen koppelen.

Toon van Waterschoot ziet de toekomst van het gebruik van deze technologie in de gezondheidszorg. Er bestaan al systemen waarbij mensen met een fysieke beperking gebruik maken van ‘voice control’ om domotica te bedienen. “Die lijn gaat nog doorgetrokken worden als we kijken naar de populatie zorgbehoevenden zowel in rusthuizen als in ziekenhuizen maar ook in hun thuisomgeving om de specifieke noden van die mensen te beantwoorden.”, aldus Toon van Waterschoot, onderzoeker en professor aan KU Leuven.