Google har udgivet Lyra audio codec til taletransmission i dårlig forbindelseskvalitet

Google har introduceret et nyt lyd-codec, Lyra, optimeret til at opnå maksimal stemmekvalitet, selv ved brug af meget langsomme kommunikationskanaler. Lyra-implementeringskoden er skrevet i C++ og åben under Apache 2.0-licensen, men blandt de afhængigheder, der kræves til drift, er der et proprietært bibliotek libsparse_inference.so med en kerneimplementering til matematiske beregninger. Det bemærkes, at det proprietære bibliotek er midlertidigt - i fremtiden lover Google at udvikle en åben erstatning og yde support til forskellige platforme.

Med hensyn til kvaliteten af ​​transmitterede stemmedata ved lave hastigheder er Lyra væsentligt bedre end traditionelle codecs, der bruger digitale signalbehandlingsmetoder. For at opnå stemmetransmission af høj kvalitet under forhold med en begrænset mængde transmitteret information, ud over konventionelle metoder til lydkomprimering og signalkonvertering, bruger Lyra en talemodel baseret på et maskinlæringssystem, som giver dig mulighed for at genskabe den manglende information baseret på typiske taleegenskaber. Modellen, der blev brugt til at generere lyden, blev trænet ved hjælp af flere tusinde timers stemmeoptagelser på mere end 70 sprog.

Google har udgivet Lyra audio codec til taletransmission i dårlig forbindelseskvalitet

Codec'et inkluderer en koder og en dekoder. Indkoderens algoritme går ud på at udtrække stemmedataparametre hvert 40. millisekund, komprimere dem og sende dem til modtageren over netværket. En kommunikationskanal med en hastighed på 3 kilobit pr. sekund er tilstrækkelig til datatransmission. De udtrukne lydparametre inkluderer logaritmiske mel-spektrogrammer, der tager højde for tales energikarakteristika i forskellige frekvensområder og er udarbejdet under hensyntagen til modellen for menneskelig auditiv perception.

Google har udgivet Lyra audio codec til taletransmission i dårlig forbindelseskvalitet

Dekoderen anvender en generativ model, der baseret på de transmitterede lydparametre genskaber talesignalet. For at reducere kompleksiteten af ​​beregninger blev der brugt en letvægtsmodel baseret på et tilbagevendende neuralt netværk, som er en variant af WaveRNN talesyntesemodellen, som bruger en lavere samplingsfrekvens, men genererer flere signaler parallelt i forskellige frekvensområder. De resulterende signaler overlejres derefter for at frembringe et enkelt udgangssignal svarende til den specificerede samplingshastighed.

Specialiserede processorinstruktioner, der er tilgængelige i 64-bit ARM-processorer, bruges også til acceleration. Som et resultat, på trods af brugen af ​​maskinlæring, kan Lyra-codec'et bruges til talekodning og -afkodning i realtid på mellemklassesmartphones, hvilket viser signaltransmissionsforsinkelse på 90 millisekunder.

Kilde: opennet.ru

Tilføj en kommentar