Google ha publicat el còdec d'àudio Lyra per a la transmissió de veu amb una connexió de mala qualitat

Google ha presentat un nou còdec d'àudio, Lyra, optimitzat per aconseguir la màxima qualitat de veu fins i tot quan s'utilitzen canals de comunicació molt lents. El codi d'implementació de Lyra està escrit en C++ i obert sota la llicència Apache 2.0, però entre les dependències necessàries per al funcionament hi ha una biblioteca propietària libsparse_inference.so amb una implementació del nucli per a càlculs matemàtics. Cal assenyalar que la biblioteca propietària és temporal; en el futur, Google promet desenvolupar un reemplaçament obert i oferir suport per a diverses plataformes.

Pel que fa a la qualitat de les dades de veu transmeses a velocitats baixes, Lyra és significativament superior als còdecs tradicionals que utilitzen mètodes de processament de senyal digital. Per aconseguir una transmissió de veu d'alta qualitat en condicions d'una quantitat limitada d'informació transmesa, a més dels mètodes convencionals de compressió d'àudio i conversió de senyal, Lyra utilitza un model de parla basat en un sistema d'aprenentatge automàtic, que permet recrear la informació que falta a partir de característiques típiques de la parla. El model utilitzat per generar el so es va entrenar amb milers d'hores d'enregistraments de veu en més de 70 idiomes.

Google ha publicat el còdec d'àudio Lyra per a la transmissió de veu amb una connexió de mala qualitat

El còdec inclou un codificador i un descodificador. L'algoritme del codificador es redueix a extreure paràmetres de dades de veu cada 40 mil·lisegons, comprimir-los i transmetre-los al destinatari a través de la xarxa. Un canal de comunicació amb una velocitat de 3 kilobits per segon és suficient per a la transmissió de dades. Els paràmetres d'àudio extrets inclouen espectrogrames mel logarítmics que tenen en compte les característiques energètiques de la parla en diferents rangs de freqüències i es preparen tenint en compte el model de percepció auditiva humana.

Google ha publicat el còdec d'àudio Lyra per a la transmissió de veu amb una connexió de mala qualitat

El descodificador utilitza un model generatiu que, a partir dels paràmetres d'àudio transmesos, recrea el senyal de parla. Per reduir la complexitat dels càlculs, es va utilitzar un model lleuger basat en una xarxa neuronal recurrent, que és una variant del model de síntesi de veu WaveRNN, que utilitza una freqüència de mostreig més baixa, però genera diversos senyals en paral·lel en diferents rangs de freqüència. Aleshores, els senyals resultants se superposen per produir un sol senyal de sortida corresponent a la freqüència de mostreig especificada.

També s'utilitzen instruccions especialitzades del processador disponibles en processadors ARM de 64 bits per a l'acceleració. Com a resultat, malgrat l'ús de l'aprenentatge automàtic, el còdec Lyra es pot utilitzar per a la codificació i descodificació de veu en temps real en telèfons intel·ligents de gamma mitjana, demostrant una latència de transmissió del senyal de 90 mil·lisegons.

Font: opennet.ru

Afegeix comentari