Onlangs kreeg ik deze vraag: “Weet Dragon spraakherkenning eigenlijk het verschil tussen woorden die hetzelfde klinken maar anders geschreven worden?”
Een super goeie vraag en eentje waar ik wel een blogbericht aan wil wijden (weiden?).
Wat zijn homofonen?
Homofonen zijn woorden die precies hetzelfde klinken maar verschillend gespeld worden en ook een verschillende betekenis hebben.
Een aantal voorbeelden:
- Kou – kauw
- Lijden – leiden – Leiden (de stad)
- Wijden – weiden
- Nog – noch
- Spelt -speld
En dan hebben we in het Nederlands ook nog de werkwoordsvormen die precies hetzelfde klinken maar die we echt niet hetzelfde mogen schrijven:
- wordt – word
- vertelt – vertelt
Waarom woorden met dezelfde klank moeilijk zijn voor Dragon
Als je met Dragon aan het dicteren bent, dan schrijft de spraakherkenning de woorden die je uitspreekt op in je document.
Om te beslissen welke woorden je precies gezegd hebt, is Dragon afhankelijk van de uitspraak van de woorden. Het spraakprogramma analyseert de klanken die hij heeft opgevangen met de microfoon. Vervolgens besluit de spraakherkenning welke woorden het meest waarschijnlijk zijn.
Als je woorden uitspreekt die precies hetzelfde klinken, zoals “leiden” en “lijden”, dan heeft de spraakherkenning heel geen houvast aan de klanken om een juiste beslissing te nemen.
Dragon begrijpt de betekenis van woorden niet
Voor mensen kan het al lastig genoeg zijn om de juiste spelling te kiezen voor woorden die hetzelfde klinken.
Maar wij mensen begrijpen het verschil in betekenis tussen woorden. In de zin “hij spelt het woord verkeerd”, weten wij precies dat het echt niet gaat over ‘speld’ in de zin van dunne puntige metalen dingetjes waar je iets mee vast kunt prikken.
De spraakherkenning heeft géén idee. Het programma hoort klanken in de microfoon binnenkomen en hij laat daar statistische berekeningen op los. Dus hoe neemt hij dan een beslissing over welk woord hij gaat opschrijven als de klanken geen houvast geven?
Context is het geheim
Ondanks dat het voor de spraakherkenningssoftware onmogelijk is om op basis van klanken het verschil tussen “wijden” en “weiden” te horen, ging het aan het begin van dit blogbericht toch goed met de herkenning. (Ja, natuurlijk dicteer ik mijn blogberichten – bijna – altijd ?)
Dat komt omdat Dragon ook naar de woordvolgorde kijkt. De context waarin een woord gebruikt wordt.
Hij baseert zich daarbij op honderdduizenden teksten die hij heeft geanalyseerd. De ‘ervaring’ die hij daarmee heeft opgedaan leert hem dat de woordcombinatie “aan wijden” veel vaker voorkomt dan “aan weiden”, dus kiest Dragon in de zin aan het begin van dit bericht braaf voor “wijden”.
Jammer genoeg werkt het niet feilloos. Regelmatig slaat Dragon de plank mis bij het herkennen van homofonen. Maar dankzij de analyse van de context gaat het ook heel erg vaak vanzelf goed, gelukkig.
Kunstmatige intelligentie in Dragon spraakherkenning
Maar de spraakherkenning heeft toch kunstmatige intelligentie?
Dat klopt. Dragon gebruikt tegenwoordig ‘deep learning’ technologie. Dat is een soort kunstmatige intelligentie. Tot nu toe heb ik geen aanwijzingen gezien dat dit invloed heeft op Dragon’s begrip van woorden of teksten.
De in dragon ingebouwde kunstmatige intelligentie lijkt zich met name te richten op verbeterde herkenning van spraakpatronen van gebruikers. Ook wordt er een supersnelle analyse van het omgevingsgeluid gemaakt zodra je begint te dicteren.
Als je hier meer over wilt lezen dan heeft fabrikant Nuance dit artikel voor je. Het is wel in het Engels. En het gaat over de toepassing van kunstmatige intelligentie in de huidige versies van Dragon Professional Individual en Dragon Professional Group.