谷歌發布了 Lyra 音訊編解碼器,用於在連接品質較差的情況下進行語音傳輸

谷歌推出了新的音訊編解碼器 Lyra,經過優化,即使在使用非常慢的通訊通道時也能實現最高的語音品質。 Lyra 實作程式碼是用 C++ 編寫的,並在 Apache 2.0 許可證下開放,但在操作所需的依賴項中,有一個專有函式庫 libsparse_inference.so ,其中包含用於數學計算的核心實作。 值得注意的是,專有庫是臨時的 - 未來谷歌承諾開發一個開放的替代品並為各種平台提供支援。

在低速傳輸語音資料的品質方面,Lyra 明顯優於採用數位訊號處理方法的傳統編解碼器。 為了在傳輸資訊量有限的情況下實現高品質的語音傳輸,除了傳統的音訊壓縮和訊號轉換方法外,Lyra還採用了基於機器學習系統的語音模型,可讓您根據資訊重新建立遺失的資訊。典型的言語特徵。 用於生成聲音的模型是使用 70 多種語言的數千小時錄音進行訓練的。

谷歌發布了 Lyra 音訊編解碼器,用於在連接品質較差的情況下進行語音傳輸

編解碼器包括編碼器和解碼器。 編碼器的演算法歸結為每 40 毫秒提取一次語音資料參數,對其進行壓縮,然後透過網路傳輸給接收者。 速度為每秒 3 kbit 的通訊通道足以進行資料傳輸。 提取的音頻參數包括對數梅爾頻譜圖,該頻譜圖考慮了不同頻率範圍內語音的能量特徵,並且在考慮人類聽覺感知模型的情況下準備。

谷歌發布了 Lyra 音訊編解碼器,用於在連接品質較差的情況下進行語音傳輸

解碼器使用生成模型,根據傳輸的音訊參數重新建立語音訊號。 為了降低計算複雜度,使用了基於循環神經網路的輕量級模型,它是 WaveRNN 語音合成模型的變體,它使用較低的取樣頻率,但在不同的頻率範圍內並行產生多個訊號。 然後將所得訊號疊加以產生與指定取樣率相對應的單一輸出訊號。

64 位元 ARM 處理器中可用的專用處理器指令也用於加速。 因此,儘管使用了機器學習,Lyra編解碼器仍可用於中階智慧型手機上的即時語音編碼和解碼,表現出90毫秒的訊號傳輸延遲。

來源: opennet.ru

添加評論