Ua hoʻolauna ʻo Google i ka codec leo Lyra V2, e hoʻohana ana i nā ʻenehana aʻo mīkini e hoʻokō i ka maikaʻi leo kiʻekiʻe ma luna o nā kahawai kamaʻilio lohi. Hōʻike ka mana hou i kahi hoʻololi i kahi hoʻolālā pūnaewele neural hou, kākoʻo no nā paepae hou, hoʻonui i nā mana mana bitrate, hoʻomaikaʻi i ka hana a me ka maikaʻi leo kiʻekiʻe. Ua kākau ʻia ka hoʻokō code reference ma C++ a māhele ʻia ma lalo o ka laikini Apache 2.0.
Ma ke ʻano o ka maikaʻi o ka ʻikepili leo i hoʻouna ʻia ma nā haʻahaʻa haʻahaʻa, ʻoi aku ka maikaʻi o Lyra ma mua o nā codec kuʻuna e hoʻohana ana i nā ʻano hana hōʻailona kikohoʻe. No ka hoʻokō ʻana i ka hoʻoili leo leo kiʻekiʻe i nā kūlana o ka nui o ka ʻike i hoʻouna ʻia, ma kahi o nā ʻano hana maʻamau o ka hoʻopili leo a me ka hoʻololi ʻana i ka hōʻailona, hoʻohana ʻo Lyra i kahi hiʻohiʻona haʻiʻōlelo e pili ana i kahi ʻōnaehana aʻo mīkini, e hiki ai iā ʻoe ke hana hou i ka ʻike i nalowale ma muli o ʻano ʻōlelo maʻamau.
Aia ka codec i kahi encoder a me kahi decoder. Hoʻopili ka algorithm o ka encoder i ka unuhi ʻana i nā palena ʻikepili leo i kēlā me kēia 20 milliseconds, e hoʻoomi iā lākou a hoʻouna iā lākou i ka mea loaʻa ma kahi pūnaewele me ka bitrate mai 3.2kbps a 9.2kbps. Ma ka hopena o ka mea hoʻokipa, hoʻohana ka decoder i ke ʻano generative e kūkulu hou i ka hōʻailona kamaʻilio kumu e pili ana i nā ʻāpana leo i hoʻouna ʻia, e komo pū ana nā spectrograms logarithmic chalk e noʻonoʻo ana i nā ʻano ikehu o ka ʻōlelo ma nā pae alapine like ʻole a mākaukau e noʻonoʻo i nā hiʻohiʻona. ʻike lohe kanaka.
Hoʻohana ʻo Lyra V2 i kahi hiʻohiʻona generative hou e pili ana i ka SoundStream convolutional neural network, nona nā koi haʻahaʻa haʻahaʻa, e ʻae ana i ka decoding manawa maoli ma nā ʻōnaehana haʻahaʻa. Ua hoʻomaʻamaʻa ʻia ke kumu hoʻohālike no ka hoʻopuka ʻana i ke kani me ka hoʻohana ʻana i nā kaukani mau hola o ka hoʻopaʻa leo leo ma mua o 90 mau ʻōlelo. Hoʻohana ʻia ʻo TensorFlow Lite e hoʻokō i ke kumu hoʻohālike. ʻO ka hana o ka hoʻokō i manaʻo ʻia ua lawa ia no ka hoʻopili ʻana i ka ʻōlelo a me ka decoding ma nā smartphones ma ke kumukūʻai haʻahaʻa haʻahaʻa.
Ma waho aʻe o ka hoʻohana ʻana i kahi ʻano generative ʻē aʻe, ʻike ʻia ka mana hou no ka hoʻokomo ʻana i loko o ka codec architecture o nā loulou me ka RVQ (Residual Vector Quantizer) quantizer, i hana ʻia ma ka ʻaoʻao o ka mea hoʻouna ma mua o ka hoʻouna ʻana i ka ʻikepili, a ma ka ʻaoʻao o ka mea lawe. ma hope o ka loaʻa ʻana o ka ʻikepili. Hoʻololi ka quantizer i nā ʻāpana i hana ʻia e ke codec i nā pūʻulu o nā ʻeke, hoʻopili i ka ʻike e pili ana i ka bitrate i koho ʻia. No ka hāʻawi ʻana i nā pae like ʻole o ka maikaʻi, hāʻawi ʻia nā quantizers no ʻekolu bitrates (3.2 kps, 6 kbps a me 9.2 kbps), ʻoi aku ka kiʻekiʻe o ka bitrate, ʻoi aku ka maikaʻi o ka maikaʻi, akā ʻoi aku ka kiʻekiʻe o nā koi bandwidth.

Ua hōʻemi ka hale hoʻolālā hou i ka lohi o ka hoʻouna ʻana i nā hōʻailona mai 100 a 20 milliseconds. No ka hoʻohālikelike, ua hōʻike ka codec Opus no WebRTC i nā latencies o 26.5ms, 46.5ms a me 66.5ms i nā bitrates i hoʻāʻo ʻia. Ua hoʻonui nui ʻia ka hana o ka encoder a me ka decoder - a hiki i 5 mau manawa wikiwiki i hoʻohālikelike ʻia i ka mana mua. No ka laʻana, ma ke kelepona ʻo Pixel 6 Pro, hoʻopili ka codec hou a hoʻokaʻawale i kahi laʻana 20-ms i 0.57 ms, ʻo ia ka 35 mau manawa ʻoi aku ka wikiwiki ma mua o ka pono no ka hoʻouna ʻana i ka manawa maoli.
Ma waho aʻe o ka hana, ua hiki nō hoʻi ke hoʻomaikaʻi i ka maikaʻi o ka hoʻihoʻi ʻana o ke kani - e like me ka pālākiō MUSHRA, ka maikaʻi o ka haʻi ʻōlelo ma nā bitrates o 3.2 kbps, 6 kbps a me 9.2 kbps i ka wā e hoʻohana ai i ka Lyra V2 codec e pili ana i nā bitrates o 10 kbps, 13 kbps a me 14 kbps ke hoʻohana i ka codec Opus.
Source: opennet.ru
