Google publikigas Lyra V2 malfermfonte sonkodekon

Google lanĉis la sonkodekon Lyra V2, kiu uzas maŝinlernajn teknikojn por atingi maksimuman voĉkvaliton per tre malrapidaj komunikadkanaloj. La nova versio prezentas transiron al nova neŭrala reto-arkitekturo, subtenon por pliaj platformoj, pligrandigitajn kontrolkapablojn, plibonigitan rendimenton kaj pli altan sonkvaliton. La referenca kodo efektivigo estas skribita en C++ kaj distribuita sub la licenco Apache 2.0.

Koncerne la kvaliton de elsenditaj voĉdatenoj ĉe malaltaj rapidecoj, Lyra estas signife pli bona ol tradiciaj kodekoj kiuj uzas ciferecajn signalajn pretigmetodojn. Por atingi altkvalitan voĉan transdonon en kondiĉoj de limigita kvanto de transdonitaj informoj, krom konvenciaj metodoj de aŭdkunpremo kaj signala konvertiĝo, Lyra uzas parolmodelon bazitan sur maŝinlernado sistemo, kiu ebligas al vi rekrei la mankantajn informojn surbaze de tipaj paroltrajtoj.

La kodeko inkluzivas kodilon kaj malĉifrilon. La algoritmo de la kodilo resumas ĉerpi voĉajn datumajn parametrojn ĉiujn 20 milisekundojn, kunpremi ilin kaj transdoni ilin al la ricevanto per reto kun bitrapideco de 3.2kbps ĝis 9.2kbps. Ĉe la ricevilfino, la malĉifrilo uzas generan modelon por rekonstrui la originan parolsignalon bazitan sur la elsenditaj sonparametroj, kiuj inkluzivas logaritmajn kretajn spektrogramojn, kiuj enkalkulas la energiajn trajtojn de parolado en malsamaj frekvencintervaloj kaj estas preparitaj konsiderante modelojn de homa aŭda percepto.

Lyra V2 uzas novan generan modelon bazitan sur la SoundStream konvolucia neŭrala reto, kiu havas malaltajn komputilajn postulojn, permesante realtempan malkodigon eĉ sur malalt-potencaj sistemoj. La modelo uzita por generi la sonon estis trejnita uzante plurmil horojn da voĉregistradoj en pli ol 90 lingvoj. TensorFlow Lite estas uzata por ekzekuti la modelon. La agado de la proponita efektivigo sufiĉas por parolkodado kaj malkodado sur inteligentaj telefonoj en la pli malalta preza gamo.

Aldone al uzado de malsama genera modelo, la nova versio ankaŭ estas rimarkinda pro la inkludo en la kodeka arkitekturo de ligiloj kun la RVQ (Residual Vector Quantizer) kvantigilo, kiu estas efektivigita sur la flanko de la sendinto antaŭ elsendado de datenoj, kaj sur la flanko de la ricevilo. post ricevo de datumoj. La kvantigilo konvertas la parametrojn produktitajn per la kodeko en arojn de pakaĵetoj, kodante informojn rilate al la elektita bitrapideco. Por disponigi malsamajn nivelojn de kvalito, kvantigiloj estas disponigitaj por tri bitratecoj (3.2 kps, 6 kbps kaj 9.2 kbps), ju pli alta la bitrapideco, des pli bona la kvalito, sed des pli altaj la bendolarĝaj postuloj.

Google publikigas Lyra V2 malfermfonte sonkodekon

La nova arkitekturo reduktis signalajn prokrastojn de 100 ĝis 20 milisekundoj. Por komparo, la Opus-kodeko por WebRTC montris latentecojn de 26.5ms, 46.5ms kaj 66.5ms ĉe la testitaj bitrapidoj. La rendimento de la kodilo kaj malĉifrilo ankaŭ signife pliiĝis - ĝis 5 fojojn pli rapide kompare kun la antaŭa versio. Ekzemple, sur la inteligenta telefono Pixel 6 Pro, la nova kodeko kodas kaj malkodas specimenon de 20-ms en 0.57 ms, kio estas 35 fojojn pli rapida ol necesa por realtempa transdono.

Krom rendimento, ankaŭ eblis plibonigi la kvaliton de sonrestarigo - laŭ la skalo MUSHRA, parolkvalito je bitrapidoj de 3.2 kbps, 6 kbps kaj 9.2 kbps dum uzado de la kodeko Lyra V2 respondas al bitrapidoj de 10 kbps, 13. kbps kaj 14 kbps kiam vi uzas la Opus-kodekon.

fonto: opennet.ru

Aldoni komenton