Google heeft de Lyra-audiocodec gepubliceerd voor spraakoverdracht met slechte verbindingskwaliteit

Google heeft een nieuwe audiocodec geïntroduceerd, Lyra, die is geoptimaliseerd om maximale spraakkwaliteit te bereiken, zelfs bij gebruik van zeer langzame communicatiekanalen. De Lyra-implementatiecode is geschreven in C++ en geopend onder de Apache 2.0-licentie, maar onder de afhankelijkheden die vereist zijn voor de werking is er een eigen bibliotheek libsparse_inference.so met een kernelimplementatie voor wiskundige berekeningen. Opgemerkt wordt dat de eigen bibliotheek tijdelijk is: Google belooft in de toekomst een open vervanging te ontwikkelen en ondersteuning te bieden voor verschillende platforms.

In termen van de kwaliteit van de verzonden spraakgegevens bij lage snelheden is Lyra aanzienlijk beter dan traditionele codecs die digitale signaalverwerkingsmethoden gebruiken. Om spraakoverdracht van hoge kwaliteit te bereiken bij een beperkte hoeveelheid verzonden informatie, gebruikt Lyra, naast de conventionele methoden van audiocompressie en signaalconversie, een spraakmodel gebaseerd op een machinaal leersysteem, waarmee u de ontbrekende informatie opnieuw kunt creëren op basis van typische spraakkenmerken. Het model dat werd gebruikt om het geluid te genereren, werd getraind met behulp van enkele duizenden uren aan stemopnames in meer dan 70 talen.

Google heeft de Lyra-audiocodec gepubliceerd voor spraakoverdracht met slechte verbindingskwaliteit

De codec bevat een encoder en een decoder. Het algoritme van de encoder komt erop neer dat er elke 40 milliseconden spraakgegevensparameters worden opgehaald, gecomprimeerd en via het netwerk naar de ontvanger worden verzonden. Voor datatransmissie is een communicatiekanaal met een snelheid van 3 kilobits per seconde voldoende. De geëxtraheerde audioparameters omvatten logaritmische mel-spectrogrammen die rekening houden met de energiekarakteristieken van spraak in verschillende frequentiebereiken en zijn opgesteld rekening houdend met het model van menselijke auditieve perceptie.

Google heeft de Lyra-audiocodec gepubliceerd voor spraakoverdracht met slechte verbindingskwaliteit

De decoder maakt gebruik van een generatief model dat, op basis van de verzonden audioparameters, het spraaksignaal opnieuw creëert. Om de complexiteit van de berekeningen te verminderen, werd een lichtgewicht model gebruikt, gebaseerd op een terugkerend neuraal netwerk, dat een variant is van het WaveRNN-spraaksynthesemodel, dat een lagere bemonsteringsfrequentie gebruikt, maar meerdere signalen parallel genereert in verschillende frequentiebereiken. De resulterende signalen worden vervolgens over elkaar heen gelegd om een ​​enkel uitgangssignaal te produceren dat overeenkomt met de gespecificeerde bemonsteringssnelheid.

Voor versnelling worden ook gespecialiseerde processorinstructies gebruikt die beschikbaar zijn in 64-bits ARM-processors. Als gevolg hiervan kan de Lyra-codec, ondanks het gebruik van machinaal leren, worden gebruikt voor realtime spraakcodering en -decodering op smartphones uit het middensegment, waarbij een latentie van signaaloverdracht van 90 milliseconden wordt aangetoond.

Bron: opennet.ru

Voeg een reactie