Technická univerzita v Liberci, Hálkova 6, 461 17 Liberec 1
Představovaný program je kompromisem mezi ideálem, který by představovala vzdělaná a hbitá písařka, a možnostmi současné techniky a vědy. Zatím není možné na stávajících počítačích zvládnout plynulý diktát v češtině na jakékoliv téma - navíc odolný i proti takovým běžným jevům, jako je např. přeřeknutí - s tak vysokou úspěšností, která by vyžadovala minimum oprav. Protože opravy chyb způsobené diktovacím systémem či špatnou výslovností mohou být největším problémem pro handicapované uživatele, byla při vývoji prakticky použitelného programu zvolena taková strategie, která opravy činí snazšími a celou technologii zároveň jednodušší. Zvolená strategie spočívá v tom, že diktování textů se děje po jednotlivých slovech, mezi kterými je třeba vždy udělat krátkou pauzu. Tento způsob, byť na první pohled poněkud méně přirozený, nabízí několik výhod:
1) Umožňuje diktovat s větším rozmyslem, protože pauzy mezi slovy lze využít jak pro okamžitou kontrolu napsaného slova a textu, tak i ke klidnému nadechnutí, odkašlání, či přemýšlení o dalším textu.
2) Umožňuje okamžitě hlasem provádět opravy v případě chybně rozpoznaných či stejně znějících slov. Při takovéto okamžité opravě lze využít toho, že program sám nabízí nejpodobnější slova, z nichž lze jedním povelem vybrat to správné a nahradit jím to, které nesprávně zvolil počítač.
3) Umožňuje zvládnout diktování s obrovským slovníkem (který je pro češtinu nutností) i na běžné výpočetní technice.
4) Umožňuje i v průběhu diktování vkládat do slovníku další slova, která v něm dosud nebyla, a ta hned dále používat.
Program pro diktování zpracovává zvukový signál snímaný mikrofonem, snaží se detekovat začátek a konec promluvy a najít z existujícího slovníku vždy to konkrétní slovo, slovní spojení, případně řídící povel, jehož akusticko-fonetický model co nejvíce odpovídá zaznamenanému signálu. Ve slovníku jsou primárně jednotlivá slova, ale mohou tam být i některá častá slovní spojení (např. spojení, která umožňují zadat číslovku 2008 – představující rok – najednou), dále frekventované zkratky (např. USA, ČSSD, KDU-ČSL) a v neposlední řadě také speciální řídicí povely, např. pro provádění oprav, formátování textu, pohyb kurzoru, atd.
Současná verze programu má ve svém slovníku více než půl milionu položek, což výrazně snižuje pravděpodobnost, že slovu, které chcete říci, systém nebude rozumět. Na základě rozsáhlých analýz a statistik vychází, že při diktování běžných textů by cca 99 slov ze 100 mělo být nalezeno ve slovníku. Pokud se toto uživateli přece jen stane, že jím požadované slovo není rozpoznáno, protože není ve slovníku, může ho zadat po jednotlivých písmenech a okamžitě ho zařadit do slovníku.
Program je vyřešen tak, aby na obrazovce počítače zabíral minimální místo, ale aby zároveň uživateli dával dostatečný přehled o tom, co se při diktování děje a jaké možnosti se v dané chvíli nabízejí. V horní části hlavního okna programu (Obr. 1.) je červenou barvou znázorněno naposledy rozpoznané slovo (zde „funkcí“), které je zároveň zapsáno do používaného textového editoru. Pod tímto slovem je zobrazen seznam deseti slov (nejbližších dalších kandidátů), které rozpoznávač považuje za akusticky a foneticky velmi podobná. Tento seznam slov slouží pro rychlou opravu nadiktovaného textu pomocí povelů typu VEZMI_PRVNÍ až „VEZMI_DESÁTÝ.
Pokud skutečně vyslovený výraz v seznamu zobrazených kandidátů není, je možné chybně vytištěný výraz vymazat povelem VYMAŽ_SLOVO, v případě dvou chybných slov za sebou pak příkazem VYMAŽ_DVĚ_SLOVA, a poté zamýšlené slovo znovu nadiktovat. Občas se také stane, že rozpoznané slovo se od slova, které bylo ve skutečnosti řečeno, liší jen v koncovce, respektive v posledním znaku. V tomto případě je možné odstranit poslední znak povelem VYMAŽ_ZNAK a následně dodiktovat správné znaky pomocí povelů ZNAK_ADAM až ZNAK_ŽOFIJE.
2.3 Jak program co nejlépe používat
Zásady pro efektivní používání programu jsou poměrně jednoduché:
2) I když je u většiny osob možné, že po správném zvolení profilu „muž“ nebo „žena“ jim rozpoznávání dobře funguje, určitě se vyplatí projít si fází adaptace, která netrvá déle než 10 – 15 minut a během níž si systém vytvoří specifický profil hlasu daného uživatele.
3) Je důležité vyslovovat přirozeně a srozumitelně, zásadně nekřičet, ale také nešeptat. Mikrofon by měl být umístěn spíše vedle úst než před ústy (kde hrozí ovlivnění činnosti mikrofonu výdechovým proudem vzduchu).
4) Víceslovné výrazy a povely je nutno vyslovovat najednou (bez pauzy uvnitř), tj. např. povel VYMAŽ_DVĚ_SLOVA musí být vysloven jako „vymaždvěslova“. V opačném případě by byla jednotlivá slova napsána to textu.
5) Délku pauzy mezi jednotlivými diktovanými slovy si volí uživatel právě takovou, aby během ní stačil zkontrolovat, zda poslední slovo bylo zapsáno správně. Postupně se dá takto naučit poměrně rychlé a spolehlivé diktování. Reálná rychlost diktování může být větší než 200 znaků za minutu.
Co se týká přesnosti rozpoznávání, je v systému MyDictate možné dosáhnout úspěšnosti vyšší než 90 %. Nutnost určitého procenta oprav však vždy zůstane, což je dáno tím, že v češtině existuje mnoho slov, která znějí úplně stejně a systém je zatím nedovede rozlišit. Příkladem může být např. následující pětice slov byly – byli – bily – bili – Billy, která mají úplně shodnou fonetickou podobu.
Závěr
Program MyDictate byl navržen speciálně pro potřeby osob, které nemohou při práci s PC používat ruce. Jim dává jedinečnou možnost zadávat do počítače text poměrně snadným a přirozeným způsobem, pomocí hlasu. Program MyDictate lze používat samostatně anebo v součinnosti s programem MyVoice. Pro nové i stávající uživatele programu MyVoice, kteří budou chtít využívat i schopností programu MyDictate, bude dodávána upravená verze MyVoice umožňující součinnost obou programů. Do budoucna se navíc uvažuje i o dalším rozšíření portfolia hlasových programů dostupných pro handicapované osoby o domácí hlasové centrum, jenž by umožňovalo hlasem např. otevřít dveře, spustit rolety, zapnout světla a řídit některá další zařízení vyskytující se v domácnosti.
Poděkování
Vývoj programu trval dlouhou řadu let. V posledních fázích byl podpořen výzkumným grantem Grantové agentury AVČR číslo 1QS108040569 a rozvojovým programem TU v Liberci.