Ua paʻi ʻo Google i ka codec leo Lyra no ka hoʻouna ʻana i ka haʻi ʻōlelo ma ka maikaʻi o ka pilina

Ua hoʻolauna ʻo Google i kahi codec leo hou, ʻo Lyra, i hoʻopaʻa ʻia e hoʻokō i ka maikaʻi o ka leo ʻoiai ke hoʻohana nei i nā ala kamaʻilio lohi. Ua kākau ʻia ka code hoʻokō Lyra ma C ++ a wehe ʻia ma lalo o ka laikini Apache 2.0, akā i waena o nā mea hilinaʻi i koi ʻia no ka hana aia kahi hale waihona puke libsparse_inference.so me ka hoʻokō kernel no ka helu makemakika. Ua ʻike ʻia he manawa pōkole ka hale waihona puke - i ka wā e hiki mai ana e hoʻohiki ʻo Google e hoʻomohala i kahi pani hakahaka a hāʻawi i ke kākoʻo no nā paepae like ʻole.

Ma ke ʻano o ka maikaʻi o ka ʻikepili leo i hoʻouna ʻia ma nā wikiwiki haʻahaʻa, ʻoi aku ka maikaʻi o Lyra ma mua o nā codec kuʻuna e hoʻohana nei i nā ʻano hana hoʻoili hōʻailona. No ka hoʻokō ʻana i ka hoʻoili leo leo kiʻekiʻe i nā kūlana o ka nui o ka ʻike i hoʻouna ʻia, me ka hoʻohui ʻana i nā ʻano hana maʻamau o ka hoʻopili leo a me ka hoʻololi ʻana i ka hōʻailona, ​​​​hoʻohana ʻo Lyra i kahi hiʻohiʻona haʻiʻōlelo e pili ana i kahi ʻōnaehana aʻo mīkini, e hiki ai iā ʻoe ke hana hou i ka ʻike i nalowale ma muli o ʻano ʻōlelo maʻamau. Ua hoʻomaʻamaʻa ʻia ke kumu hoʻohālike no ka hoʻopuka ʻana i ke kani me ka hoʻohana ʻana i nā kaukani hola o ka hoʻopaʻa leo leo ma nā ʻōlelo he 70 aʻe.

Ua paʻi ʻo Google i ka codec leo Lyra no ka hoʻouna ʻana i ka haʻi ʻōlelo ma ka maikaʻi o ka pilina

Aia ka codec i kahi encoder a me kahi decoder. Hoʻopili ka algorithm o ka encoder i ka unuhi ʻana i nā ʻāpana ʻikepili leo i kēlā me kēia 40 milliseconds, e hoʻoomi iā lākou, a e hoʻouna iā lākou i ka mea loaʻa ma luna o ka pūnaewele. Ua lawa kahi alahele kamaʻilio me ka wikiwiki o 3 kilobits i kekona no ka lawe ʻana i ka ʻikepili. ʻO nā ʻāpana leo i unuhi ʻia he logarithmic mel spectrograms e noʻonoʻo ana i nā ʻano ikehu o ka haʻi ʻōlelo ma nā pae alapine like ʻole a mākaukau e noʻonoʻo i ke kumu hoʻohālike o ka ʻike hoʻolohe kanaka.

Ua paʻi ʻo Google i ka codec leo Lyra no ka hoʻouna ʻana i ka haʻi ʻōlelo ma ka maikaʻi o ka pilina

Hoʻohana ka decoder i kahi hoʻohālike generative, e pili ana i nā ʻāpana leo i hoʻouna ʻia, hana hou i ka hōʻailona haʻiʻōlelo. No ka hōʻemi ʻana i ka paʻakikī o ka helu ʻana, ua hoʻohana ʻia kahi kumu hoʻohālike māmā e pili ana i ka neural network recurrent, he ʻano like ʻole o ka WaveRNN speech synthesis model, e hoʻohana ana i kahi alapine haʻahaʻa haʻahaʻa, akā e hoʻopuka i nā hōʻailona like ʻole i nā pae alapine like ʻole. Hoʻopili ʻia nā hōʻailona hopena e hana i hoʻokahi hōʻailona hoʻopuka e pili ana i ka helu sampling i kuhikuhi ʻia.

Hoʻohana pū ʻia nā ʻōlelo aʻoaʻo hana kūikawā i loaʻa i nā kaʻina hana 64-bit ARM no ka wikiwiki. ʻO ka hopena, ʻoiai ka hoʻohana ʻana i ka mīkini aʻo, hiki ke hoʻohana ʻia ka Lyra codec no ka hoʻopili ʻana i ka haʻi ʻōlelo a me ka decoding ma waena o nā smartphones waena, e hōʻike ana i ka latency hoʻouna ʻana i ka hōʻailona o 90 milliseconds.

Source: opennet.ru

Pākuʻi i ka manaʻo hoʻopuka