„Google“ paskelbė „Lyra“ garso kodeką, skirtą prastos kokybės kalbos perdavimui

„Google“ pristatė naują garso kodeką „Lyra“, optimizuotą pasiekti maksimalią balso kokybę net naudojant labai lėtus ryšio kanalus. Lyra diegimo kodas parašytas C++ kalba ir atidarytas pagal Apache 2.0 licenciją, tačiau tarp darbui reikalingų priklausomybių yra patentuota biblioteka libsparse_inference.so su branduolio įgyvendinimu matematiniams skaičiavimams. Pažymima, kad patentuota biblioteka yra laikina – ateityje Google žada sukurti atvirą pakaitalą ir teikti palaikymą įvairioms platformoms.

Mažu greičiu perduodamų balso duomenų kokybe Lyra gerokai pranašesnė už tradicinius kodekus, kuriuose naudojami skaitmeninio signalo apdorojimo metodai. Siekdama aukštos kokybės balso perdavimo esant ribotam perduodamos informacijos kiekiui, be įprastų garso suspaudimo ir signalo konvertavimo metodų, Lyra naudoja kalbos modelį, pagrįstą mašininio mokymosi sistema, leidžiančią atkurti trūkstamą informaciją tipinės kalbos savybės. Garsui generuoti naudojamas modelis buvo apmokytas naudojant kelis tūkstančius valandų balso įrašų daugiau nei 70 kalbų.

„Google“ paskelbė „Lyra“ garso kodeką, skirtą prastos kokybės kalbos perdavimui

Kodeke yra kodavimo įrenginys ir dekoderis. Koduotojo algoritmas susideda iš balso duomenų parametrų ištraukimo kas 40 milisekundžių, juos suglaudinant ir perduodant gavėjui per tinklą. Duomenims perduoti pakanka 3 kilobitų per sekundę spartos ryšio kanalo. Išskirti garso parametrai apima logaritmines mel spektrogramas, kuriose atsižvelgiama į kalbos energetines charakteristikas skirtinguose dažnių diapazonuose ir yra parengtos atsižvelgiant į žmogaus klausos suvokimo modelį.

„Google“ paskelbė „Lyra“ garso kodeką, skirtą prastos kokybės kalbos perdavimui

Dekoderis naudoja generacinį modelį, kuris pagal perduodamus garso parametrus atkuria kalbos signalą. Skaičiavimų sudėtingumui sumažinti buvo naudojamas lengvas modelis, pagrįstas pasikartojančiu neuroniniu tinklu, kuris yra WaveRNN kalbos sintezės modelio variantas, kuris naudoja mažesnį diskretizavimo dažnį, tačiau lygiagrečiai generuoja kelis signalus skirtinguose dažnių diapazonuose. Gauti signalai sujungiami, kad būtų sukurtas vienas išvesties signalas, atitinkantis nurodytą diskretizavimo dažnį.

Paspartinimui taip pat naudojamos specializuotos procesoriaus instrukcijos, esančios 64 bitų ARM procesoriuose. Dėl to, nepaisant mašininio mokymosi, „Lyra“ kodekas gali būti naudojamas vidutinės klasės išmaniuosiuose telefonuose realiu laiku koduoti ir dekoduoti kalbą, o tai rodo 90 milisekundžių signalo perdavimo delsą.

Šaltinis: opennet.ru

Добавить комментарий