Datum zveřejnění: 
12. 9. 2017

Americká výzkumná agentura DARPA se pro armádu snaží vylepšovat mimo jiné technologie, které dokážou z nekvalitního zvukového záznamu rozpoznat, když se třeba dva teroristé pomocí amatérských vysílaček domlouvají na setkání. Zvuk i signál jsou oproti mobilním sítím mnohem horší. Vědci, kteří na tom s ní spolupracují, přitom sídlí i na brněnské Fakultě informačních technologií VUT.
"Dělali jsme pro ně projekt Rats, kde šlo o rozpoznávání řečníka, jazyka či detekci klíčových slov. Důležité bylo, aby stroje byly schopné rozpoznat řeč z velice špatných přenosových kanálů – šlo o amatérské vysílačky, kde byla kvalita příšerná," popisuje práci Jan Černocký, který tým zaměřený na hlasovou analýzu vede.
Grant od DARPA šel přes společnost Raytheon BBN Technologies, která se proslavila tím, že pro americké úřady prověřovala třeba zvukové analýzy nahrávek střelby na Johna F. Kennedyho či nahrávek, které v Bílém domě pořizoval Richard Nixon. Zakladatelem firmy byl mimochodem vysokoškolský profesor Leo Beranek, jehož předci do USA přišli z českých zemí.
A co se práce se zvukem týče, jsou světová špička i jeho nepřímí pokračovatelé z Brna. Podobně jako Berankovi se i jim daří to, co vybádají v laboratořích, převádět do komerční sféry. "Na začátku stojí obyčejná lidská konverzace a my se z ní snažíme takzvaně vydolovat co nejvíce informací," říká Černocký.
Se svými lidmi zaujal dokonce v centrále Facebooku, která VUT vybrala společně s pražským ČVUT mezi patnáct elitních univerzit, kterým poskytne výkonné servery, aby mohly urychlit práci na vývoji umělé inteligence. "Facebook není jen hezká aplikace, ale firma, která je na světové špičce ve výzkumu strojového učení a umělé inteligence. Díky serverům zvýšíme výpočetní výkon a naše výzkumné skupiny budou moci provádět rychleji datově náročné výpočty, především v oblasti získávání dat z řeči," vysvětluje Černocký.
Hodně si výzkumníci ovšem cení spolupráce se start-upem Phonexia. "Technologie dokáže přepsat řeč na text a z velkého množství dat potom získat potřebné informace, umí také například odhadnout věk nebo pohlaví mluvčího," líčí možnosti dolování informací šéf firmy Phonexia Michal Hrabí.
Kromě toho výzkumníci nabízí své služby call centrům po celém světě, která pak mohou kontrolovat, zda telefonisté dělají svou práci dobře nebo na co se klienti nejčastěji ptají. Zákazníky mají takřka všude od Nového Zélandu po Jižní Ameriku.
A vědci z Brna mají i jeden projekt, který je určen široké veřejnosti, byť za poplatek. Jde o projekt SpokenData.com. Tam mohou lidé přes webový prohlížeč nahrát video či zvukový soubor a během chvilky dostanou přepis textu. Na zdokonalování programu se neustále pracuje, aby si poradil i se zvukem z hlučné hospody. "Co se týče diktování do počítače, už není moc co dělat. Co se však týče zašuměné řeči nebo neznámého jazyka, máme práce až do důchodu," přiznává Černocký.       

Zdroj: 
Hospodářské noviny