Google-k Lyra audio-kodeka argitaratu du ahots-transmisiorako konexio-kalitate eskasean

Google-k audio-kodeka berria aurkeztu du, Lyra, ahots-kalitate maximoa lortzeko optimizatuta dagoen komunikazio-kanal oso motelak erabiltzen badira ere. Lyra inplementazio-kodea C++-n idatzita dago eta Apache 2.0 lizentziapean irekita dago, baina funtzionatzeko beharrezkoak diren mendekotasunen artean libsparse_inference.so liburutegi jabeduna dago, kalkulu matematikoetarako nukleoaren inplementazioarekin. Kontuan izan da liburutegi jabeduna behin-behinekoa dela - etorkizunean Google-k ordezko ireki bat garatuko duela eta hainbat plataformatarako laguntza emango duela hitz ematen du.

Abiadura baxuan transmititutako ahots-datuen kalitateari dagokionez, Lyra seinale digitala prozesatzeko metodoak erabiltzen dituzten kodec tradizionalak baino nabarmen handiagoa da. Kalitate handiko ahots-transmisioa lortzeko, transmititutako informazio kopuru mugatuaren baldintzetan, audio-konpresioaren eta seinaleen bihurketa-metodo konbentzionalez gain, Lyrak-ek ikasketa automatikoko sistema batean oinarritutako hizketa-eredu bat erabiltzen du, falta den informazioa birsortzeko aukera ematen duena. hizkeraren ezaugarri tipikoak. Soinua sortzeko erabilitako eredua 70 hizkuntza baino gehiagotan hainbat mila ordutako ahots-grabaketak erabiliz trebatu zen.

Google-k Lyra audio-kodeka argitaratu du ahots-transmisiorako konexio-kalitate eskasean

Kodekak kodetzailea eta deskodetzailea ditu. Kodetzailearen algoritmoa ahots-datuen parametroak 40 milisegundotik behin ateratzea, konprimitzea eta hartzaileari sarearen bidez transmititzea da. Datuak transmititzeko 3 kilobit segundoko abiadura duen komunikazio kanal bat nahikoa da. Ateratako audio-parametroek mel espektrograma logaritmikoak barne hartzen dituzte, maiztasun-tarte desberdinetan hizketaren energia-ezaugarriak kontuan hartzen dituztenak eta giza entzumen-pertzepzioaren eredua kontuan hartuta prestatzen direnak.

Google-k Lyra audio-kodeka argitaratu du ahots-transmisiorako konexio-kalitate eskasean

Deskodetzaileak eredu sortzaile bat erabiltzen du, transmititutako audio-parametroetan oinarrituta, hizketa-seinalea birsortzen duena. Kalkuluen konplexutasuna murrizteko, sare neuronal errekurrente batean oinarritutako eredu arin bat erabili zen, hau da, WaveRNN ahots-sintesi ereduaren aldaera bat, laginketa-maiztasun txikiagoa erabiltzen duena, baina hainbat seinale paralelo sortzen dituena maiztasun-tarte ezberdinetan. Ondoren, ondoriozko seinaleak gainjartzen dira, zehaztutako laginketa-tasari dagokion irteera-seinale bakarra sortzeko.

64 biteko ARM prozesadoreetan eskuragarri dauden prozesadore-argibide espezializatuak ere erabiltzen dira azeleraziorako. Ondorioz, ikaskuntza automatikoa erabili arren, Lyra kodeka denbora errealean hizketa kodetzeko eta deskodetzeko erabil daiteke gama ertaineko telefono adimendunetan, seinalearen transmisioaren latentzia 90 milisegundoko frogatuz.

Iturria: opennet.ru

Gehitu iruzkin berria