Google on avaldanud Lyra helikodeki halva ühenduse kvaliteediga kõne edastamiseks

Google on kasutusele võtnud uue helikodeki Lyra, mis on optimeeritud saavutama maksimaalset helikvaliteeti ka väga aeglaste sidekanalite kasutamisel. Lyra juurutuskood on kirjutatud C++ keeles ja avatud Apache 2.0 litsentsi all, kuid tööks vajalike sõltuvuste hulgas on ka patenteeritud teek libsparse_inference.so koos kerneli teostusega matemaatiliste arvutuste jaoks. Märgitakse, et varaline raamatukogu on ajutine – tulevikus lubab Google välja töötada avatud asendus ja pakkuda tuge erinevatele platvormidele.

Madalatel kiirustel edastatavate kõneandmete kvaliteedi poolest on Lyra oluliselt parem kui traditsioonilised koodekid, mis kasutavad digitaalseid signaalitöötlusmeetodeid. Kvaliteetse kõneedastuse saavutamiseks piiratud koguse edastatava teabe tingimustes kasutab Lyra lisaks tavapärastele heli tihendamise ja signaali muundamise meetoditele masinõppesüsteemil põhinevat kõnemudelit, mis võimaldab puuduva teabe uuesti luua. tüüpilised kõne omadused. Heli genereerimiseks kasutatud mudelit koolitati, kasutades mitu tuhat tundi helisalvestisi rohkem kui 70 keeles.

Google on avaldanud Lyra helikodeki halva ühenduse kvaliteediga kõne edastamiseks

Kodek sisaldab kodeerijat ja dekoodrit. Kodeerija algoritm taandub kõneandmete parameetrite ekstraheerimisele iga 40 millisekundi järel, nende tihendamisele ja adressaadile edastamisele võrgu kaudu. Andmeedastuseks piisab sidekanalist, mille kiirus on 3 kilobitti sekundis. Eraldatud heliparameetrid hõlmavad logaritmilisi mel spektrogramme, mis võtavad arvesse kõne energiaomadusi erinevates sagedusvahemikes ja on koostatud inimese kuulmistaju mudelit arvestades.

Google on avaldanud Lyra helikodeki halva ühenduse kvaliteediga kõne edastamiseks

Dekooder kasutab generatiivset mudelit, mis edastatud heliparameetrite põhjal loob kõnesignaali uuesti. Arvutuste keerukuse vähendamiseks kasutati korduval närvivõrgul põhinevat kergmudelit, mis on WaveRNN kõnesünteesi mudeli variant, mis kasutab madalamat diskreetimissagedust, kuid genereerib erinevates sagedusvahemikes paralleelselt mitut signaali. Saadud signaalid lisatakse seejärel ühe väljundsignaali saamiseks, mis vastab määratud diskreetimissagedusele.

Kiirendamiseks kasutatakse ka spetsiaalseid protsessori juhiseid, mis on saadaval 64-bitistes ARM-protsessorites. Selle tulemusel saab Lyra koodekit vaatamata masinõppe kasutamisele kasutada reaalajas kõne kodeerimiseks ja dekodeerimiseks keskklassi nutitelefonides, näidates signaali edastamise latentsust 90 millisekundit.

Allikas: opennet.ru

Lisa kommentaar