Google het die Lyra-klankkodek vir spraakoordrag in swak verbindingsgehalte gepubliseer

Google het 'n nuwe oudio-kodek, Lyra, bekendgestel, wat geoptimaliseer is om maksimum stemkwaliteit te bereik, selfs wanneer baie stadige kommunikasiekanale gebruik word. Die Lyra-implementeringskode is in C++ geskryf en oop onder die Apache 2.0-lisensie, maar onder die afhanklikhede wat benodig word vir werking is daar 'n eie biblioteek libsparse_inference.so met 'n kernimplementering vir wiskundige berekeninge. Daar word kennis geneem dat die eie biblioteek tydelik is - in die toekoms beloof Google om 'n oop plaasvervanger te ontwikkel en ondersteuning vir verskeie platforms te bied.

Wat die kwaliteit van oorgedra stemdata teen lae spoed betref, is Lyra aansienlik beter as tradisionele kodeks wat digitale seinverwerkingsmetodes gebruik. Om hoΓ« kwaliteit stemoordrag te bereik in toestande van 'n beperkte hoeveelheid oorgedra inligting, bykomend tot konvensionele metodes van klankkompressie en seinomskakeling, gebruik Lyra 'n spraakmodel gebaseer op 'n masjienleerstelsel, wat jou toelaat om die ontbrekende inligting te herskep op grond van tipiese spraakkenmerke. Die model wat gebruik is om die klank te genereer, is opgelei deur etlike duisende ure se stemopnames in meer as 70 tale te gebruik.

Google het die Lyra-klankkodek vir spraakoordrag in swak verbindingsgehalte gepubliseer

Die kodek sluit 'n enkodeerder en 'n dekodeerder in. Die enkodeerder se algoritme kom daarop neer om stemdataparameters elke 40 millisekondes te onttrek, dit saam te komprimeer en dit oor die netwerk na die ontvanger te stuur. 'n Kommunikasiekanaal met 'n spoed van 3 kilobits per sekonde is voldoende vir data-oordrag. Die onttrekde oudioparameters sluit logaritmiese melspektrogramme in wat die energie-eienskappe van spraak in verskillende frekwensiereekse in ag neem en is voorberei met inagneming van die model van menslike ouditiewe persepsie.

Google het die Lyra-klankkodek vir spraakoordrag in swak verbindingsgehalte gepubliseer

Die dekodeerder gebruik 'n generatiewe model wat, gebaseer op die oorgedra klankparameters, die spraaksein herskep. Om die kompleksiteit van berekeninge te verminder, is 'n liggewigmodel gebaseer op 'n herhalende neurale netwerk gebruik, wat 'n variant van die WaveRNN-spraaksintesemodel is, wat 'n laer steekproeffrekwensie gebruik, maar verskeie seine parallel in verskillende frekwensiereekse genereer. Die resulterende seine word dan gesuperponeer om 'n enkele uitsetsein te produseer wat ooreenstem met die gespesifiseerde steekproeftempo.

Gespesialiseerde verwerkerinstruksies beskikbaar in 64-bis ARM verwerkers word ook vir versnelling gebruik. As gevolg hiervan, ten spyte van die gebruik van masjienleer, kan die Lyra-kodek gebruik word vir intydse spraakkodering en -dekodering op middelafstand-slimfone, wat seinversendingslatensie van 90 millisekondes demonstreer.

Bron: opennet.ru

Voeg 'n opmerking