Google hat den Audio-Codec Lyra für Sprachübertragung bei schlechter Verbindungsqualität veröffentlicht

Google hat mit Lyra einen neuen Audio-Codec eingeführt, der darauf optimiert ist, auch bei Verwendung sehr langsamer Kommunikationskanäle maximale Sprachqualität zu erreichen. Der Lyra-Implementierungscode ist in C++ geschrieben und unter der Apache 2.0-Lizenz geöffnet, aber zu den für den Betrieb erforderlichen Abhängigkeiten gehört eine proprietäre Bibliothek libsparse_inference.so mit einer Kernel-Implementierung für mathematische Berechnungen. Es wird darauf hingewiesen, dass die proprietäre Bibliothek nur vorübergehend ist – Google verspricht, in Zukunft einen offenen Ersatz zu entwickeln und verschiedene Plattformen zu unterstützen.

Hinsichtlich der Qualität der übertragenen Sprachdaten bei niedrigen Geschwindigkeiten ist Lyra herkömmlichen Codecs, die digitale Signalverarbeitungsverfahren nutzen, deutlich überlegen. Um eine qualitativ hochwertige Sprachübertragung bei begrenzter Menge an übertragenen Informationen zu erreichen, verwendet Lyra zusätzlich zu herkömmlichen Methoden der Audiokomprimierung und Signalumwandlung ein Sprachmodell, das auf einem maschinellen Lernsystem basiert, mit dem Sie die fehlenden Informationen basierend auf neu erstellen können typische Sprachmerkmale. Das zur Tonerzeugung verwendete Modell wurde anhand mehrerer Tausend Stunden Sprachaufzeichnungen in mehr als 70 Sprachen trainiert.

Google hat den Audio-Codec Lyra für Sprachübertragung bei schlechter Verbindungsqualität veröffentlicht

Der Codec umfasst einen Encoder und einen Decoder. Der Algorithmus des Encoders besteht darin, alle 40 Millisekunden Sprachdatenparameter zu extrahieren, sie zu komprimieren und über das Netzwerk an den Empfänger zu übertragen. Für die Datenübertragung reicht ein Kommunikationskanal mit einer Geschwindigkeit von 3 Kilobit pro Sekunde aus. Die extrahierten Audioparameter umfassen logarithmische Mel-Spektrogramme, die die Energieeigenschaften von Sprache in verschiedenen Frequenzbereichen berücksichtigen und unter Berücksichtigung des Modells der menschlichen Hörwahrnehmung erstellt werden.

Google hat den Audio-Codec Lyra für Sprachübertragung bei schlechter Verbindungsqualität veröffentlicht

Der Decoder verwendet ein generatives Modell, das basierend auf den übertragenen Audioparametern das Sprachsignal nachbildet. Um die Komplexität der Berechnungen zu reduzieren, wurde ein leichtes Modell auf Basis eines rekurrenten neuronalen Netzwerks verwendet, das eine Variante des WaveRNN-Sprachsynthesemodells ist, das eine niedrigere Abtastfrequenz verwendet, aber mehrere Signale parallel in unterschiedlichen Frequenzbereichen erzeugt. Die resultierenden Signale werden dann überlagert, um ein einziges Ausgangssignal zu erzeugen, das der angegebenen Abtastrate entspricht.

Zur Beschleunigung werden auch spezielle Prozessoranweisungen verwendet, die in 64-Bit-ARM-Prozessoren verfügbar sind. Dadurch kann der Lyra-Codec trotz des Einsatzes von maschinellem Lernen für die Sprachkodierung und -dekodierung in Echtzeit auf Smartphones der Mittelklasse verwendet werden und weist eine Signalübertragungslatenz von 90 Millisekunden auf.

Source: opennet.ru

Kommentar hinzufügen