Google a publié le codec audio Lyra pour la transmission de la parole avec une mauvaise qualité de connexion

Google a introduit un nouveau codec audio, Lyra, optimisé pour obtenir une qualité vocale maximale même en utilisant des canaux de communication très lents. Le code d'implémentation de Lyra est écrit en C++ et ouvert sous licence Apache 2.0, mais parmi les dépendances nécessaires au fonctionnement, il existe une bibliothèque propriétaire libsparse_inference.so avec une implémentation noyau pour les calculs mathématiques. Il est à noter que la bibliothèque propriétaire est temporaire. À l'avenir, Google promet de développer un remplacement ouvert et de prendre en charge diverses plates-formes.

En termes de qualité des données vocales transmises à faible vitesse, Lyra est nettement supérieure aux codecs traditionnels qui utilisent des méthodes de traitement du signal numérique. Pour obtenir une transmission vocale de haute qualité dans des conditions de quantité limitée d'informations transmises, en plus des méthodes conventionnelles de compression audio et de conversion de signal, Lyra utilise un modèle vocal basé sur un système d'apprentissage automatique, qui vous permet de recréer les informations manquantes en fonction de caractéristiques typiques de la parole. Le modèle utilisé pour générer le son a été formé à l’aide de plusieurs milliers d’heures d’enregistrements vocaux dans plus de 70 langues.

Google a publié le codec audio Lyra pour la transmission de la parole avec une mauvaise qualité de connexion

Le codec comprend un encodeur et un décodeur. L'algorithme de l'encodeur se résume à extraire les paramètres des données vocales toutes les 40 millisecondes, à les compresser et à les transmettre au destinataire via le réseau. Un canal de communication avec une vitesse de 3 kilobits par seconde est suffisant pour la transmission de données. Les paramètres audio extraits comprennent des spectrogrammes mel logarithmiques qui prennent en compte les caractéristiques énergétiques de la parole dans différentes gammes de fréquences et sont préparés en tenant compte du modèle de perception auditive humaine.

Google a publié le codec audio Lyra pour la transmission de la parole avec une mauvaise qualité de connexion

Le décodeur utilise un modèle génératif qui, sur la base des paramètres audio transmis, recrée le signal vocal. Pour réduire la complexité des calculs, un modèle léger basé sur un réseau neuronal récurrent a été utilisé, qui est une variante du modèle de synthèse vocale WaveRNN, qui utilise une fréquence d'échantillonnage plus faible, mais génère plusieurs signaux en parallèle dans différentes plages de fréquences. Les signaux résultants sont ensuite superposés pour produire un seul signal de sortie correspondant à la fréquence d'échantillonnage spécifiée.

Les instructions de processeur spécialisées disponibles dans les processeurs ARM 64 bits sont également utilisées pour l'accélération. En conséquence, malgré l’utilisation de l’apprentissage automatique, le codec Lyra peut être utilisé pour l’encodage et le décodage de la parole en temps réel sur les smartphones de milieu de gamme, démontrant une latence de transmission du signal de 90 millisecondes.

Source: opennet.ru

Ajouter un commentaire