Google publikigis la sonkodekon Lyra por paroltranssendo en malbona konektkvalito

Google enkondukis novan sonkodekon, Lyra, optimumigitan por atingi maksimuman voĉkvaliton eĉ kiam oni uzas tre malrapidajn komunikajn kanalojn. La efektiviga kodo de Lyra estas skribita en C++ kaj malfermita sub la permesilo Apache 2.0, sed inter la dependecoj necesaj por funkciado estas proprieta biblioteko libsparse_inference.so kun kerna efektivigo por matematikaj kalkuloj. Oni rimarkas, ke la proprieta biblioteko estas provizora - estonte Guglo promesas evoluigi malferman anstataŭaĵon kaj provizi subtenon por diversaj platformoj.

Koncerne la kvaliton de elsenditaj voĉdatenoj ĉe malaltaj rapidecoj, Lyra estas signife pli bona ol tradiciaj kodekoj kiuj uzas ciferecajn signalajn pretigmetodojn. Por atingi altkvalitan voĉan transdonon en kondiĉoj de limigita kvanto da transdonitaj informoj, krom konvenciaj metodoj de aŭdkunpremo kaj signala konvertiĝo, Lyra uzas parolmodelon bazitan sur maŝinlernado sistemo, kiu ebligas al vi rekrei la mankantajn informojn surbaze de tipaj paroltrajtoj. La modelo uzita por generi la sonon estis trejnita uzante plurmil horojn da voĉregistradoj en pli ol 70 lingvoj.

Google publikigis la sonkodekon Lyra por paroltranssendo en malbona konektkvalito

La kodeko inkluzivas kodilon kaj malĉifrilon. La algoritmo de la kodilo resumas al eltiro de voĉdatenparametroj ĉiujn 40 milisekundojn, kunpremante ilin kaj elsendante ilin al la ricevanto tra la reto. Por transdono de datumoj sufiĉas komunika kanalo kun rapido de 3 kilobitoj por sekundo. La ĉerpitaj sonparametroj inkludas logaritmajn mel-spektrogramojn kiuj enkalkulas la energiajn karakterizaĵojn de parolado en malsamaj frekvencintervaloj kaj estas pretaj konsiderante la modelon de homa aŭda percepto.

Google publikigis la sonkodekon Lyra por paroltranssendo en malbona konektkvalito

La malĉifrilo uzas generan modelon kiu, surbaze de la elsenditaj sonparametroj, rekreas la parolsignalon. Por redukti la kompleksecon de kalkuloj, oni uzis malpezan modelon bazitan sur ripetiĝanta neŭrala reto, kiu estas varianto de la modelo de parolsintezo WaveRNN, kiu uzas pli malaltan specimenan frekvencon, sed generas plurajn signalojn paralele en malsamaj frekvencaj intervaloj. La rezultaj signaloj tiam estas supermetitaj por produkti ununuran produktaĵsignalon egalrilatantan al la precizigita specimenigo.

Specialiĝintaj procesorinstrukcioj haveblaj en 64-bitaj ARM-procesoroj ankaŭ estas utiligitaj por akcelado. Kiel rezulto, malgraŭ la uzo de maŝinlernado, la Lyra-kodeko povas esti uzata por realtempa parolkodado kaj malkodado sur meznivelaj inteligentaj telefonoj, montrante signal-transsendon de 90 milisekundoj.

fonto: opennet.ru

Aldoni komenton