Google ha pubblicato il codec audio Lyra per la trasmissione del parlato con una connessione di scarsa qualità

Google ha introdotto un nuovo codec audio, Lyra, ottimizzato per ottenere la massima qualità vocale anche utilizzando canali di comunicazione molto lenti. Il codice di implementazione di Lyra è scritto in C++ e aperto sotto la licenza Apache 2.0, ma tra le dipendenze necessarie al funzionamento c'è una libreria proprietaria libsparse_inference.so con un'implementazione del kernel per i calcoli matematici. Va notato che la libreria proprietaria è temporanea: in futuro Google promette di sviluppare una sostituzione aperta e fornire supporto per varie piattaforme.

In termini di qualità dei dati vocali trasmessi a bassa velocità, Lyra è significativamente superiore ai codec tradizionali che utilizzano metodi di elaborazione del segnale digitale. Per ottenere una trasmissione vocale di alta qualità in condizioni di una quantità limitata di informazioni trasmesse, oltre ai metodi convenzionali di compressione audio e conversione del segnale, Lyra utilizza un modello vocale basato su un sistema di apprendimento automatico, che consente di ricreare le informazioni mancanti in base a caratteristiche tipiche del parlato. Il modello utilizzato per generare il suono è stato addestrato utilizzando diverse migliaia di ore di registrazioni vocali in più di 70 lingue.

Google ha pubblicato il codec audio Lyra per la trasmissione del parlato con una connessione di scarsa qualità

Il codec include un codificatore e un decodificatore. L'algoritmo del codificatore si riduce all'estrazione dei parametri dei dati vocali ogni 40 millisecondi, alla loro compressione e alla loro trasmissione al destinatario tramite la rete. Per la trasmissione dei dati è sufficiente un canale di comunicazione con una velocità di 3 kilobit al secondo. I parametri audio estratti includono spettrogrammi logaritmici mel che tengono conto delle caratteristiche energetiche del parlato in diverse gamme di frequenza e sono preparati tenendo conto del modello di percezione uditiva umana.

Google ha pubblicato il codec audio Lyra per la trasmissione del parlato con una connessione di scarsa qualità

Il decoder utilizza un modello generativo che, in base ai parametri audio trasmessi, ricrea il segnale vocale. Per ridurre la complessità dei calcoli è stato utilizzato un modello leggero basato su una rete neurale ricorrente, che è una variante del modello di sintesi vocale WaveRNN, che utilizza una frequenza di campionamento inferiore, ma genera più segnali in parallelo in diversi intervalli di frequenza. I segnali risultanti vengono quindi sovrapposti per produrre un singolo segnale di uscita corrispondente alla frequenza di campionamento specificata.

Per l'accelerazione vengono utilizzate anche istruzioni specializzate del processore disponibili nei processori ARM a 64 bit. Di conseguenza, nonostante l’uso dell’apprendimento automatico, il codec Lyra può essere utilizzato per la codifica e decodifica vocale in tempo reale su smartphone di fascia media, dimostrando una latenza di trasmissione del segnale di 90 millisecondi.

Fonte: opennet.ru

Aggiungi un commento