Google rilascia il codec audio open source Lyra V2

Google ha introdotto il codec audio Lyra V2, che utilizza tecniche di apprendimento automatico per ottenere la massima qualità vocale su canali di comunicazione molto lenti. La nuova versione prevede la transizione a una nuova architettura di rete neurale, supporto per piattaforme aggiuntive, capacità di controllo del bitrate ampliate, prestazioni migliorate e qualità audio più elevata. L'implementazione del codice di riferimento è scritta in C++ e distribuita sotto la licenza Apache 2.0.

In termini di qualità dei dati vocali trasmessi a bassa velocità, Lyra è significativamente superiore ai codec tradizionali che utilizzano metodi di elaborazione del segnale digitale. Per ottenere una trasmissione vocale di alta qualità in condizioni di una quantità limitata di informazioni trasmesse, oltre ai metodi convenzionali di compressione audio e conversione del segnale, Lyra utilizza un modello vocale basato su un sistema di apprendimento automatico, che consente di ricreare le informazioni mancanti in base a caratteristiche tipiche del parlato.

Il codec include un codificatore e un decodificatore. L'algoritmo del codificatore si riduce ad estrarre i parametri dei dati vocali ogni 20 millisecondi, comprimerli e trasmetterli al destinatario su una rete con un bitrate da 3.2 kbps a 9.2 kbps. All'estremità del ricevitore, il decodificatore utilizza un modello generativo per ricostruire il segnale vocale originale in base ai parametri audio trasmessi, che includono spettrogrammi logaritmici in gesso che tengono conto delle caratteristiche energetiche del parlato in diverse gamme di frequenza e sono preparati tenendo conto dei modelli di percezione uditiva umana.

Lyra V2 utilizza un nuovo modello generativo basato sulla rete neurale convoluzionale SoundStream, che ha bassi requisiti computazionali, consentendo la decodifica in tempo reale anche su sistemi a bassa potenza. Il modello utilizzato per generare il suono è stato addestrato utilizzando diverse migliaia di ore di registrazioni vocali in più di 90 lingue. TensorFlow Lite viene utilizzato per eseguire il modello. Le prestazioni dell'implementazione proposta sono sufficienti per la codifica e decodifica vocale sugli smartphone della fascia di prezzo più bassa.

Oltre all'utilizzo di un diverso modello generativo, la nuova versione si distingue anche per l'inclusione nell'architettura del codec di collegamenti con il quantizzatore RVQ (Residual Vector Quantizer), che viene eseguito dal lato del mittente prima della trasmissione dei dati, e dal lato del destinatario dopo aver ricevuto i dati. Il quantizzatore converte i parametri prodotti dal codec in insiemi di pacchetti, codificando le informazioni in relazione al bitrate selezionato. Per fornire diversi livelli di qualità, sono forniti quantizzatori per tre bitrate (3.2 kps, 6 kbps e 9.2 kbps), maggiore è il bitrate, migliore è la qualità, ma maggiori sono i requisiti di larghezza di banda.

Google rilascia il codec audio open source Lyra V2

La nuova architettura ha ridotto i ritardi di trasmissione del segnale da 100 a 20 millisecondi. Per fare un confronto, il codec Opus per WebRTC ha dimostrato latenze di 26.5 ms, 46.5 ms e 66.5 ms ai bitrate testati. Anche le prestazioni dell'encoder e del decoder sono aumentate in modo significativo, fino a 5 volte più veloci rispetto alla versione precedente. Ad esempio, sullo smartphone Pixel 6 Pro, il nuovo codec codifica e decodifica un campione di 20 ms in 0.57 ms, ovvero 35 volte più veloce di quanto richiesto per la trasmissione in tempo reale.

Oltre alle prestazioni, è stato anche possibile migliorare la qualità del ripristino del suono: secondo la scala MUSHRA, la qualità del parlato con bitrate di 3.2 kbps, 6 kbps e 9.2 kbps quando si utilizza il codec Lyra V2 corrisponde a bitrate di 10 kbps, 13 kbps e 14 kbps quando si utilizza il codec Opus.

Fonte: opennet.ru

Aggiungi un commento