Google telah menerbitkan codec audio Lyra untuk transmisi ucapan dengan kualitas koneksi yang buruk

Google telah memperkenalkan codec audio baru, Lyra, yang dioptimalkan untuk mencapai kualitas suara maksimal bahkan saat menggunakan saluran komunikasi yang sangat lambat. Kode implementasi Lyra ditulis dalam C++ dan terbuka di bawah lisensi Apache 2.0, tetapi di antara dependensi yang diperlukan untuk pengoperasian terdapat perpustakaan berpemilik libsparse_inference.so dengan implementasi kernel untuk perhitungan matematis. Perlu dicatat bahwa perpustakaan berpemilik bersifat sementara - di masa depan Google berjanji untuk mengembangkan pengganti terbuka dan memberikan dukungan untuk berbagai platform.

Dalam hal kualitas data suara yang dikirimkan pada kecepatan rendah, Lyra jauh lebih unggul daripada codec tradisional yang menggunakan metode pemrosesan sinyal digital. Untuk mencapai transmisi suara berkualitas tinggi dalam kondisi jumlah informasi yang dikirimkan terbatas, selain metode kompresi audio dan konversi sinyal konvensional, Lyra menggunakan model ucapan berdasarkan sistem pembelajaran mesin, yang memungkinkan Anda membuat ulang informasi yang hilang berdasarkan pada ciri khas tuturan. Model yang digunakan untuk menghasilkan suara dilatih menggunakan rekaman suara selama beberapa ribu jam dalam lebih dari 70 bahasa.

Google telah menerbitkan codec audio Lyra untuk transmisi ucapan dengan kualitas koneksi yang buruk

Codec mencakup encoder dan decoder. Algoritme pembuat enkode bermuara pada mengekstraksi parameter data suara setiap 40 milidetik, mengompresinya, dan mengirimkannya ke penerima melalui jaringan. Saluran komunikasi dengan kecepatan 3 kilobit per detik sudah cukup untuk transmisi data. Parameter audio yang diekstraksi mencakup spektogram mel logaritmik yang memperhitungkan karakteristik energi ucapan dalam rentang frekuensi berbeda dan disiapkan dengan mempertimbangkan model persepsi pendengaran manusia.

Google telah menerbitkan codec audio Lyra untuk transmisi ucapan dengan kualitas koneksi yang buruk

Dekoder menggunakan model generatif yang, berdasarkan parameter audio yang dikirimkan, membuat ulang sinyal ucapan. Untuk mengurangi kerumitan penghitungan, digunakan model ringan berdasarkan jaringan saraf berulang, yang merupakan varian dari model sintesis ucapan WaveRNN, yang menggunakan frekuensi pengambilan sampel lebih rendah, tetapi menghasilkan beberapa sinyal secara paralel dalam rentang frekuensi berbeda. Sinyal yang dihasilkan kemudian ditumpangkan untuk menghasilkan sinyal keluaran tunggal yang sesuai dengan laju pengambilan sampel yang ditentukan.

Instruksi prosesor khusus yang tersedia dalam prosesor ARM 64-bit juga digunakan untuk akselerasi. Hasilnya, meskipun menggunakan pembelajaran mesin, codec Lyra dapat digunakan untuk pengkodean dan decoding ucapan secara real-time pada ponsel pintar kelas menengah, menunjukkan latensi transmisi sinyal sebesar 90 milidetik.

Sumber: opennet.ru

Tambah komentar