Il fondatore di QEMU e FFmpeg ha pubblicato il codec audio TSAC

Il matematico francese Fabrice Bellard, che ha fondato i progetti QEMU, FFmpeg, BPG, QuickJS, TinyGL e TinyCC, ha pubblicato il formato di codifica audio TSAC e gli strumenti associati per la compressione e decompressione dei file audio. Il formato si concentra sulla trasmissione di dati a bitrate molto bassi, ad esempio 5.5 kb/s per mono e 7.5 kb/s per stereo, pur mantenendo una qualità accettabile di musica e parlato. L'utilizzo di TSAC consente di comprimere una composizione musicale con una durata di 3.5 minuti e una frequenza di campionamento di 44.1 kHz (stereo) in un file da 192 KB, che sarà quasi indistinguibile dall'originale all'orecchio di un profano inesperto. Il codice del progetto è distribuito sotto la licenza MIT.

Il codec audio Descript è stato utilizzato come base per la creazione di TSAC, che è stato ampliato per supportare l'audio stereo e trasferito all'utilizzo di un altro modello di apprendimento automatico basato su una rete neurale con un'architettura "trasformatore", che ha permesso di aumentare la compressione rapporto ricostruendo i dettagli perduti tenendo conto del modello della percezione uditiva umana. Il modello occupa circa 200 MB in forma compressa ed è formattato in una rappresentazione deterministica, che garantisce lo stesso risultato indipendentemente dalla CPU/GPU utilizzata e dal numero di thread coinvolti nei calcoli.

L'encoder può funzionare utilizzando solo la CPU per i calcoli (per l'accelerazione sono supportate le istruzioni AVX2), ma per ottenere prestazioni elevate si consiglia di utilizzare la GPU. Nella sua forma attuale, l'API CUDA può essere utilizzata per l'accelerazione utilizzando GPU NVIDIA basate sulle microarchitetture Ampere, ADA e Hopper (RTX 3090, RTX 4090, RTX A6000, A100 e H100) con almeno 4 GB di memoria video. FFmpeg viene utilizzato per convertire i file audio prima della codifica.

istereo 6.21 kb/smono 4.71 kb/sstereo 2.57 kb/s

Inoltre, vale la pena notare l'aggiornamento dell'utility ts_zip di Bellar, progettata per una compressione efficiente dei dati testuali utilizzando un meccanismo di previsione dei token basato su un sistema di apprendimento automatico e sul modello linguistico di grandi dimensioni RWKV 169M v4. Quando si comprime un archivio di Wikipedia, ts_zip ha permesso una compressione dei dati di 7.3 volte, e quando si comprime il codice del kernel Linux 1.2x - 7.8x. Per confronto, i livelli di compressione ottenuti con l'utility xz erano rispettivamente 4.7x e 5.5x. Il compromesso per un'elevata efficienza di compressione è rappresentato da una bassa velocità di compressione e da elevati requisiti di risorse (almeno 4 GB di RAM). Su un sistema con una GPU RTX 4090, le prestazioni di compressione sono di circa 1 MB/s.

Fonte: opennet.ru

Acquista hosting affidabile per siti con protezione DDoS, server VPS VDS 🔥 Acquista un hosting web affidabile con protezione DDoS, server VPS e VDS | ProHoster