ELEARNING.SK | PR SPRÁVY | GSGROUP | NAJDES.SK | BRIGÁDY, PRÁCA | GLOBALOFFICE.SK | REGISTRAČNÉ VIRTUÁlNE SÍDLO FIRMY | MINCE | CMS | ESHOP | TESTIVA
Prihlásenie:
>Staňte sa redaktorom eQuark.sk

eQuark.sk

Anketa

Ak by ste o tom mohli rozhodnúť práve vy, zaradili by ste Pluto opäť medzi planéty?

Quark

Hovorené slovo sa bude dať čítať okamžite

25.11.2010 10:59:58 | * q
| Počet zobrazení: 2445x

Hovoríme s Ing. Milanom Ruskom, vedúcim oddelenia analýzy a syntézy reči Ústavu informatiky SAV

 

Široký riešiteľský kolektív zložený z pracovníkov oddelenia analýzy a syntézy reči Ústavu informatiky SAV pod vedením Ing. Milana Ruska a pedagogických a výskumných pracovníkov Katedry elektroniky a multimediálnej telekomunikácie TU Košice pod vedením doc. Ing. Jozefa Juhára, CSc., vyvinul prvý profesionálny rozpoznávač plynulej reči na Slovensku s veľkým slovníkom (Large Vocabulary Continuous Speech Recognizer – LVCSR). Dosahuje parametre porovnateľné so súčasnými podobnými špičkovými systémami vo svete.

Čo je rozpoznávač reči?

Rozpoznávač reči sa zvykne označovať aj anglickým termínom Speech to Text, čo znamená, že prepisuje prednesený text do písomnej podoby. Dodajme, že to robí strojovo a automaticky, v reálnom čase, teda súčasne s tým, ako sa text vyslovuje.

Rozpoznávače reči sa používajú v jazykoch, ktorými hovoria mnohé milióny ľudí, ako angličtina, nemčina, japončina či čínština, už roky. Prečo v slovenčine až teraz?

V prvom rade treba povedať, že slovenčina je ohybný jazyk, a teda má viac slovných tvarov než napríklad angličtina. Za slovo sa totiž považuje každý jeho slovný tvar. Takže anglický rozpoznávač musí ovládať asi 80-tisíc slov, slovenský ich však potrebuje až okolo 440-tisíc. Preto je pre angličtinu jednoduchšie pripraviť jazykový model a samotný rozpoznávač je tým menej výpočtovo náročný. Na to sa však nemožno celkom vyhovárať, lebo už boli vytvorené rozpoznávače aj pre ohybné jazyky. Oveľa dôležitejším dôvodom je veľkosť trhu. Slovenčina je jazyk, ktorý používa pomerne málo ľudí, preto sa veľkým firmám nie veľmi oplatí investovať veľa úsilia a finančných prostriedkov do budovania rečových databáz, ich anotácie, budovania textových databáz a ich spracovania. Nezanedbateľným faktorom je aj potreba spolupráce s miestnymi jazykovedcami. Každý si vie predstaviť, koľko miliónov ľudí môže potenciálne používať takýto systém na prepis zvukového textu do písanej podoby v angličtine a koľko možno tisícok ľudí by ho mohlo používať na prepisy v slovenčine. Takže návratnosť investícií je neporovnateľná.

Prečo ste si vybrali ako vzorku na vytvorenie rečovej a textovej databázy práve Národnú radu SR?

Jeden dôvod vyplýva z praktickej dostupnosti. Zápisy zo zasadnutia Národnej rady SR v zvukovej i textovej podobe sú od roku 1994 zo zákona voľne prístupné na internete. Preto pre nás mohli slúžiť ako východiskový materiál na anotáciu, ďalšie spracovanie a vytvorenie databázy. Druhý dôvod je, že tento rečový materiál je veľmi konzistentný. Rečníci, ktorí hovoria v parlamente, sú väčšinou zvyknutí hovoriť nahlas a výrazne artikulovať. Navyše sa vyjadrujú pomerne spisovne a vytvárajú logicky pospájané jazykové konštrukcie, čo je veľmi výhodné pre rozpoznávač reči.

Stačia vám prejavy, ktoré ste mali k dispozícií z nášho parlamentu?

Zvukových nahrávok z parlamentu je skutočne veľa. Nie všetky sme spracovali do formy databázy. V prvej verzii sme mali sto hodín trénovacej databázy a k tomu 30 hodín na testovanie. Po nedávnych voľbách sa zmenilo obsadenie parlamentu. Pribudli noví hovoriaci, čo znamená nové kvality, nové štýly reči, takže určite budeme databázu rozširovať. Treba si uvedomiť, že veľká databáza je potrebná, aby sa dali robiť experimenty so špecializovanými akustickými modelmi. Napríklad mužský a ženský model, model rýchlej a pomalej reči, ktoré by mali zvýšiť úspešnosť rozpoznávania jednotlivých rečníkov.

Pokiaľ ide o množstvo textových údajov, tak tých sa z nášho hľadiska možno trochu paradoxne v parlamente za celú jeho históriu nazbieralo oveľa menej, než by sme potrebovali. Potrebovali by sme azda tisíckrát viac textov, ako máme k dispozícii. Toľko sa však zatiaľ v parlamente jednoducho nepovedalo. Na vytvorenie kvalitného jazykového modelu treba okrem úzko špecializovaných parlamentných prejavov mať ako dodatok aj všeobecnejšie texty, aby model štatisticky dobre reprezentoval vlastnosti slovenského jazyka.

Čo je najdôležitejšou úlohou pri vývoji softvéru na rozpoznávanie reči?

To ťažko povedať. Každá časť takéhoto systému je dôležitá. Ako sa však hovorí, reťaz je taká silná, ako je silné jej najslabšie ohnivko. To platí aj v tomto prípade. V prvom rade treba vytvoriť rozsiahle zvukové a textové databázy, čo je skutočne mravčia práca, v ktorej nám pomáhajú ako brigádnici študenti. Druhou je natrénovanie rozprávača, aby vedel rozpoznať jednotlivé slová, ale aj celé frázy a plynulú reč. Samotný softvér musí byť spoľahlivý, výkonný a rýchly, aby bol schopný robiť všetky potrebné operácie v reálnom čase.

Ako váš program funguje?

Náš program má architektúru klasického rozpoznávača reči. To znamená, že vstupný zvukový signál prichádza do bloku akustického predspracovania, kde sa krátke úseky zvukového signálu menia na reprezentatívne vektory čísel. Tie potom vstupujú do dekódovača. Ten spolupracuje s akustickým a jazykovým modelom a snaží sa pomocou nich zistiť, aké slovo a aká fráza mu práve prišla na vstup. Inými slovami, najprv porovnáva povedané úseky reči so zvukmi vo svojej zvukovej databáze. Potom vytvorí postupnosť niekoľkých najvhodnejších možností. Tieto porovnáva so svojím slovníkom a vyberie z nich najvhodnejších kandidátov na slová. Tým sa však jeho práca nekončí. Nasleduje porovnávanie pravdepodobnosti dvoch slov vedľa seba a potom aj troch slov s tým, aké možnosti mu ponúka jazykový model. Rozpoznávač opäť vyberie tú najlepšiu možnosť. Tu sa môže zmýliť, ak človek nehovorí spisovne alebo používa nespisovný a netradičný slovosled.

To všetko kladie vysoké požiadavky na ľudí i technológie.

Určite. Preto máme vyvážený riešiteľský kolektív. V našom tíme máme okrem manažérov, programátorov a analytikov aj lingvistov, ktorí prinášajú skúsenosti z jazykovedy a majú úplne iný pohľad na slovenčinu, ako je ten náš, technický. Keďže náš kolektív je malý, privítali sme, že môžeme na riešení spolupracovať s kolektívom vedeným doc. Jozefom Juhárom z Katedry elektroniky a multimediálnych telekomunikácií Fakulty elektrotechniky a informatiky Technickej univerzity v Košiciach.
Pokiaľ ide o technológie, musia dosahovať najvyššie súčasné svetové parametre a byť zároveň obohatené o naše vlastné inovatívne riešenia. Musia vedieť potlačiť vplyv šumov v miestnostiach, ako aj rečových javov – račkovania, váhania, nesúvislej reči a podobne. V budúcnosti plánujeme riešiť aj silnejšie regionálne akcenty, emócie či skákanie do reči. Práve rozpoznávanie paralelnej reči ostáva jedným z najväčších problémov, ktorým sa v súčasnosti zaoberá množstvo tímov na celom svete. Pre technickú náročnosť potrebujeme aj veľmi rýchle a výkonné počítače, ktoré sú schopné spracúvať obrovské zvukové a jazykové databázy.


Slovenčina je bohatá na množstvo nárečí, ktorých vplyv cítiť dokonca aj v parlamente. Ako na ne rozpoznávač reči reaguje?

Jeho cieľom nie je rozpoznávať nárečia. To znamená, že východniarčinu, tvrdú záhoráčtinu s nespisovnými slovnými tvarmi alebo goralské nárečie, nebude vedieť dobre rozpoznávať, lebo jednoducho sme ho na to netrénovali. Na druhej strane zbierame do našej databázy aj nahrávky, ktoré sú od rečníkov z východného, severného a západného Slovenska, aby aj ich poňatie spisovnej a správnej výslovnosti a ich realizácia spisovnej reči bola v databáze zastúpená.

Jedným z bežných riešení je obmedzenie používania rozpoznávača hlasov na konkrétnu pracovnú činnosť, najmä na oblasť justície a zdravotníctva. Čo k tomu viedlo?

Výhodou je, že v tomto prípade sa rozpoznávač používa len na jednu, prísne vyhranenú oblasť použitia. To znamená, že slovná zásoba, štýl, postupnosti slov, stavba fráz a podobne sú pomerne málo rozmanité oproti úplne všeobecnému jazyku. Dá sa teda vytvoriť úzko špecializovaný jazykový model, čo spôsobuje, že rozpoznávanie v takejto obmedzenej oblasti použitia je presnejšie. Preto sa aj dá systém lepšie používať v praxi. V medicíne je typickým príkladom využitie rozpoznávača hlasu röntgenológmi, ktorí si čítajú röntgenovú snímku a diktujú svoje výsledky do systému a ten ihneď vytvorí písomnú podobu ich hodnotenia. V justícii slúži napríklad sudcom pri pojednávaniach, keď diktujú svoje rozhodnutia. To je systém, na ktorom aj u nás pracujeme na základe objednávky Ministerstva spravodlivosti SR. Ide o dvojročný projekt, z ktorého už jeden rok máme za sebou. V jeho rámci náš Ústav informatiky SAV a Katedra elektroniky a multimediálnych komunikácií Technickej univerzity v Košiciach spoločne vytvárajú diktačný systém určený na priame diktovanie do textu a prepis diktafónových nahrávok. To by malo urýchliť ich spracovanie a tým zrýchliť súdne konania.

Získali ste Cenu SAV. Čo to pre vás znamená?

Udelenie Ceny SAV za najlepší aplikačný výsledok akadémie v roku 2009 je pre nás veľmi významné, lebo potvrdzuje, že naša práca je hodnotná a má široký spoločenský význam. Pevne veríme, že sa tým otvárajú na Slovensku ďalšie možnosti pre široké uplatnenie rečových technológií v priemysle, bankovníctve, telekomunikáciách, ale možno aj v médiách, veď môžu aj vám uľahčiť napríklad prepis rozhovorov. Navyše práve Cena SAV je jednou z možností, ako zviditeľniť, že takéto technológie na Slovensku sú, aké majú prínosy a aké sú ich ďalšie možnosti.

Na čo sa chcete sústrediť v budúcnosti?

Určite by sme chceli rozšíriť oblasti, kde sa tento prístup môže využiť. Vedeckou výzvou do budúcna, na ktorej pracujeme tak v rozpoznávaní, ako aj syntéze reči, je napríklad expresívna reč. To znamená automatické spracovanie reči, keď je človek rozčúlený, vyburcovaný, vzrušený, kričí, alebo naopak, keď je smutný, pokojný až šepká. Práca s takýmito extrémnymi polohami v reči je veľmi zaujímavá. Ide napríklad o prácu s emóciami, ich syntézu a rozpoznávanie v reči alebo dokonca o syntézu a rozpoznávanie personality človeka v reči a podobne. Ale to je naozaj práca do budúcna.


Pripravil MARIÁN BABIC

Zdieľaj článok
 
Hodnotenie: 3,29
Príspevok na titulke

Vyberte článok na titulku kliknutím na linku

 

www.brigada.sk - brigády, brigáda, práca, zamestnanie www.najdes.sk - katalóg, portál, vyhľadávač www.equark.sk - veda, výskum, technika www.uvery.sk - úvery, pôžičky, hypotéky www.elearning.sk - elearning, LMS, vzdelávanie, kurzy, elektronické vzdelávanie www.globaloffice.sk - registračné sídlo, virtuálna adresa a kancelária www.globalhosting.sk - domény, doména, webhosting, hosting www.globalweb.sk - CMS, WCMS, redakčný systém, publikačný systém www.globalshop.sk - internetový obchod, eshop, e-commerce Global Services Slovakia s.r.o. - www.gsgroup.sk, informačné systémy, portálové riešenia, intranety, web dizajn

Generuje redakčný CMS systém GlobalWeb spoločnosti Global Services Slovakia s.r.o.