Google zverejnil zvukový kodek Lyra na prenos reči v zlej kvalite pripojenia

Google predstavil nový zvukový kodek, Lyra, optimalizovaný na dosiahnutie maximálnej kvality hlasu aj pri použití veľmi pomalých komunikačných kanálov. Implementačný kód Lyry je napísaný v C++ a otvorený pod licenciou Apache 2.0, ale medzi závislosťami potrebnými na prevádzku je vlastná knižnica libsparse_inference.so s implementáciou jadra pre matematické výpočty. Je potrebné poznamenať, že proprietárna knižnica je dočasná - v budúcnosti spoločnosť Google sľubuje vyvinúť otvorenú náhradu a poskytnúť podporu pre rôzne platformy.

Z hľadiska kvality prenášaných hlasových dát pri nízkych rýchlostiach Lyra výrazne prevyšuje tradičné kodeky, ktoré využívajú metódy digitálneho spracovania signálu. Na dosiahnutie vysokej kvality prenosu hlasu v podmienkach obmedzeného množstva prenášaných informácií, okrem konvenčných metód kompresie zvuku a konverzie signálu, Lyra používa rečový model založený na systéme strojového učenia, ktorý vám umožňuje znovu vytvoriť chýbajúce informácie na základe typické rečové vlastnosti. Model použitý na generovanie zvuku bol trénovaný pomocou niekoľkých tisíc hodín hlasových nahrávok vo viac ako 70 jazykoch.

Google zverejnil zvukový kodek Lyra na prenos reči v zlej kvalite pripojenia

Kodek obsahuje kodér a dekodér. Algoritmus kódovača sa scvrkáva na extrakciu parametrov hlasových dát každých 40 milisekúnd, ich kompresiu a ich prenos k príjemcovi cez sieť. Na prenos dát postačuje komunikačný kanál s rýchlosťou 3 kilobity za sekundu. Extrahované zvukové parametre zahŕňajú logaritmické mel spektrogramy, ktoré zohľadňujú energetické charakteristiky reči v rôznych frekvenčných rozsahoch a sú pripravené s ohľadom na model ľudského sluchového vnímania.

Google zverejnil zvukový kodek Lyra na prenos reči v zlej kvalite pripojenia

Dekodér používa generatívny model, ktorý na základe prenášaných audio parametrov obnovuje rečový signál. Na zníženie zložitosti výpočtov bol použitý odľahčený model založený na rekurentnej neurónovej sieti, ktorý je variantom modelu syntézy reči WaveRNN, ktorý využíva nižšiu vzorkovaciu frekvenciu, no paralelne generuje niekoľko signálov v rôznych frekvenčných rozsahoch. Výsledné signály sa potom superponujú, aby sa vytvoril jediný výstupný signál zodpovedajúci špecifikovanej vzorkovacej frekvencii.

Na zrýchlenie sa používajú aj špecializované procesorové inštrukcie dostupné v 64-bitových ARM procesoroch. Výsledkom je, že napriek použitiu strojového učenia je možné kodek Lyra použiť na kódovanie a dekódovanie reči v reálnom čase na smartfónoch strednej triedy, čím je možné preukázať latenciu prenosu signálu 90 milisekúnd.

Zdroj: opennet.ru

Pridať komentár