法國數學家 Fabrice Bellard 創立了 QEMU、FFmpeg、BPG、QuickJS、TinyGL 和 TinyCC 項目,並發布了 TSAC 音訊編碼格式以及用於壓縮和解壓縮音訊檔案的相關工具。該格式專注於以非常低的比特率傳輸數據,例如單聲道 5.5 kb/s,立體聲 7.5 kb/s,同時保持可接受的音樂和語音品質。使用 TSAC,您可以將 3.5 分鐘、取樣頻率為 44.1 kHz(立體聲)的音樂作品打包到 192 KB 的文件中,對於沒有經驗的外行人來說,這與原作幾乎無法區分。此專案代碼是根據 MIT 許可證分發的。
Descript 音訊編解碼器被用作創建 TSAC 的基礎,TSAC 被擴展為支援立體聲,並轉移到使用另一種基於具有「變壓器」架構的神經網路的機器學習模型,這使得提高壓縮成為可能透過考慮人類聽覺感知模型重建失去的細節來計算比率。該模型以壓縮形式佔用約 200 MB,並採用確定性表示格式,無論使用的 CPU/GPU 以及計算中涉及的線程數如何,都可以保證相同的結果。
編碼器可以只使用CPU進行運算(支援AVX2指令進行加速),但為了獲得高效能,建議使用GPU。在目前的形式下,CUDA API 可用於使用基於 Ampere、ADA 和 Hopper 微架構(RTX 3090、RTX 4090、RTX A6000、A100 和 H100)且至少具有 4 GB 視訊記憶體的 NVIDIA GPU 進行加速。 FFmpeg 用於在編碼之前轉換音訊檔案。
此外,值得一提的是 Bellar 的 ts_zip 工具的更新,該工具旨在利用基於機器學習系統和 RWKV 169M v4 大型語言模型的詞元預測機制,實現高效的文本資料壓縮。在壓縮維基百科存檔時,ts_zip 的資料壓縮率提高了 7.3 倍;在壓縮核心程式碼時,ts_zip 也取得了顯著的提升。 Linux 壓縮倍數範圍為 1.2 倍至 7.8 倍。相較之下,使用 xz 工具的壓縮倍數分別為 4.7 倍和 5.5 倍。高壓縮效率的代價是壓縮速度慢和資源需求高(至少需要 4 GB 記憶體)。在配備 RTX 4090 GPU 的系統上,壓縮效能約為 1 MB/s。
來源: opennet.ru
