Google kodek dengî ya çavkaniya vekirî Lyra V2 belav dike

Google kodek dengî Lyra V2 destnîşan kir, ku teknîkên fêrbûna makîneyê bikar tîne da ku li ser kanalên ragihandinê yên pir hêdî bigihîje kalîteya deng a herî zêde. Guhertoya nû veguheztinek berbi mîmariya tora neuralî ya nû, piştgirî ji bo platformên zêde, kontrolkirina bitrateya zêdekirî, çêtirkirina performansê û kalîteya dengî ya bilindtir vedihewîne. Pêkanîna koda referansê di C ++ de hatî nivîsandin û di bin lîsansa Apache 2.0 de tê belav kirin.

Di warê kalîteya daneya dengî ya ku bi leza nizm ve hatî veguheztin, Lyra ji kodekên kevneşopî yên ku rêbazên hilberandina nîşana dîjîtal bikar tînin pir girîngtir e. Ji bo ku bigihîje veguheztina dengek kalîteya bilind di şert û mercên hûrgelek agahdariya veguheztinê de, ji bilî awayên asayî yên berhevkirina deng û veguheztina sînyala, Lyra modelek axaftinê li ser bingeha pergala fêrbûna makîneyê bikar tîne ku dihêle hûn agahdariya winda ji nû ve biafirînin. li ser bingeha taybetmendiyên axaftina tîpîk.

Kodek şîfreyek û dekoderek dihewîne. Algorîtmaya şîfrekerê ew e ku her 20 milîsecond de pîvanên daneya deng derxe, wan biqelişîne û bi rêjeya bit ji 3.2kbps berbi 9.2kbps veguhezîne wergirê ser torê. Li aliyê wergirê, dekoder modelek hilberîner bikar tîne da ku sînyala axaftinê ya orîjînal li ser bingeha pîvanên bihîstwerî yên hatî veguheztin ji nû ve biafirîne, ku tê de spektrogramên kelpîç ên logarîtmîkî hene ku taybetmendiyên enerjiya axaftinê di navberên frekansa cihêreng de digirin ber çav û li gorî têgihîştina bihîstweriya mirovî têne amadekirin. cins.

Lyra V2 modelek hilberîner a nû ya ku li ser bingeha tora neuralî ya hevgirtî ya SoundStream-ê ye, bikar tîne, ku di çavkaniyên komputerê de ji hêla hewcedariyên kêm ve tê destnîşan kirin, ku destûrê dide deşîfrekirina di dema rast de jî li ser pergalên kêm-hêza kêm. Modela ku ji bo hilberîna deng tê bikar anîn bi karanîna çend hezar demjimêran tomarên dengî bi zêdetirî 90 zimanan hatî perwerde kirin. TensorFlow Lite ji bo pêkanîna modelê tê bikar anîn. Performansa pêkanîna pêşniyarkirî ji bo şîfrekirin û şîfrekirina axaftinê li ser têlefonên bihaya kêmtirîn bes e.

Digel karanîna modelek hilberîner a cihêreng, guhertoya nû ji ber tevlêbûna girêdanên bi quantîzera RVQ (Quantizera Vektorê Bermahî) di mîmariya kodêkê de, ku li milê şanderê berî veguheztina daneyê, û li aliyê wergir tê çêkirin, jî girîng e. piştî wergirtina daneyan. Quantîzator parametreyên ku ji hêla kodek ve hatî dayîn vediguhezîne komek pakêtan, agahdariya li gorî bitrateya hilbijartî kod dike. Ji bo dabînkirina astên cihêreng ên kalîteyê, quantîzator ji bo sê rêjeyên bit (3.2 kbps, 6 kbps û 9.2 kbps) têne peyda kirin, rêjeya bit çi qas bilindtir be, kalîte jî çêtir e, lê hewcedariyên bandê çiqasî bilindtir be.

Google kodek dengî ya çavkaniya vekirî Lyra V2 belav dike

Mîmariya nû derengiya ragihandina sînyalê ji 100 ber 20 mîlîsaniyeyan kêm kiriye. Ji bo berhevdanê, kodek Opus ji bo WebRTC derengiyên 26.5ms, 46.5ms û 66.5ms di bitrateyên ceribandinê de nîşan da. Performansa şîfreker û dekoderê jî pir zêde bûye - li gorî guhertoya berê, bilezbûnek heya 5 carî heye. Mînakî, li ser smartphone Pixel 6 Pro, kodek nû nimûneyek 20-ms di 0.57 ms de kod dike û deşîfre dike, ku ji bo veguheztina rast-demê 35 carî zûtir e ji ya pêwîst.

Digel performansê, me di heman demê de rê da ku em kalîteya vegerandina deng jî baştir bikin - li gorî pîvana MUSHRA, dema ku kodek Lyra V3.2 bikar bînin, kalîteya axaftinê bi rêjeyên bit 6 kbps, 9.2 kbps û 2 kbps bi rêjeyên bit ên 10 re têkildar e. kbps, 13 kbps û 14 kbps dema ku kodek Opus bikar tînin.

Source: opennet.ru

Add a comment