Google çox yavaş kommunikasiya kanalları üzərində maksimum səs keyfiyyətinə nail olmaq üçün maşın öyrənmə üsullarından istifadə edən Lyra V2 audio kodekini təqdim etdi. Yeni versiyada yeni neyron şəbəkə arxitekturasına keçid, əlavə platformalar üçün dəstək, genişləndirilmiş bit sürətinə nəzarət imkanları, təkmilləşdirilmiş performans və yüksək səs keyfiyyəti var. İstinad kodunun tətbiqi C++ dilində yazılmışdır və Apache 2.0 lisenziyası altında paylanmışdır.
Aşağı sürətlərdə ötürülən səs məlumatlarının keyfiyyəti baxımından Lyra rəqəmsal siqnalın işlənməsi üsullarından istifadə edən ənənəvi kodeklərdən əhəmiyyətli dərəcədə üstündür. Məhdud miqdarda ötürülən məlumat şəraitində yüksək keyfiyyətli səs ötürülməsinə nail olmaq üçün, adi audio sıxılma və siqnalın çevrilməsi üsullarına əlavə olaraq, Lyra maşın öyrənmə sisteminə əsaslanan nitq modelindən istifadə edir ki, bu da məlumat əsasında itkin məlumatları yenidən yaratmağa imkan verir. tipik nitq xüsusiyyətləri.
Kodekə kodlayıcı və dekoder daxildir. Kodlayıcının alqoritmi səs məlumatı parametrlərini hər 20 millisaniyədən bir çıxarmaq, onları sıxmaq və 3.2kbps-dən 9.2kbps-ə qədər bit sürəti ilə şəbəkə üzərindən alıcıya ötürməkdən ibarətdir. Qəbuledicinin sonunda dekoder, ötürülən səs parametrləri əsasında orijinal nitq siqnalını yenidən qurmaq üçün generativ modeldən istifadə edir ki, bu da müxtəlif tezlik diapazonlarında nitqin enerji xüsusiyyətlərini nəzərə alan loqarifmik təbaşir spektroqramlarını əhatə edir və nitqin modelləri nəzərə alınmaqla hazırlanır. insanın eşitmə qavrayışı.
Lyra V2, SoundStream konvolyusiya neyron şəbəkəsinə əsaslanan yeni generativ modeldən istifadə edir ki, bu da aşağı hesablama tələblərinə malikdir və hətta aşağı güc sistemlərində belə real vaxt rejimində dekodlamağa imkan verir. Səs yaratmaq üçün istifadə edilən model 90-dan çox dildə bir neçə min saatlıq səs yazılarından istifadə etməklə öyrədilib. Modelin icrası üçün TensorFlow Lite istifadə olunur. Təklif olunan tətbiqin performansı aşağı qiymət diapazonunda smartfonlarda nitqin kodlaşdırılması və dekodlanması üçün kifayətdir.
Fərqli generativ modeldən istifadə etməklə yanaşı, yeni versiya həm də məlumatların ötürülməsindən əvvəl göndərici tərəfdə və qəbuledici tərəfdə yerinə yetirilən RVQ (Qalıq Vektor Kvantizatoru) kvantizatoru ilə əlaqələrin kodek arxitekturasına daxil edilməsi ilə diqqət çəkir. məlumatları aldıqdan sonra. Kvantizator kodek tərəfindən istehsal olunan parametrləri seçilmiş bit sürəti ilə bağlı məlumatı kodlaşdıraraq paket dəstlərinə çevirir. Müxtəlif keyfiyyət səviyyələrini təmin etmək üçün kvantizatorlar üç bit sürəti (3.2 kps, 6 kbps və 9.2 kbps) üçün təmin edilir, bit sürəti nə qədər yüksək olsa, keyfiyyət bir o qədər yaxşı olar, lakin bant genişliyi tələbləri bir o qədər yüksəkdir.

Yeni arxitektura siqnal ötürmə gecikmələrini 100 millisaniyədən 20 millisaniyəyə qədər azaldıb. Müqayisə üçün, WebRTC üçün Opus kodeki sınaqdan keçirilmiş bit sürətlərində 26.5 ms, 46.5 ms və 66.5 ms gecikmələr nümayiş etdirdi. Kodlayıcı və dekoderin performansı da əhəmiyyətli dərəcədə artıb - əvvəlki versiya ilə müqayisədə 5 dəfəyə qədər sürətli. Məsələn, Pixel 6 Pro smartfonunda yeni kodek 20 ms nümunəni 0.57 ms-də kodlayır və deşifrə edir ki, bu da real vaxt ötürülməsi üçün tələb olunandan 35 dəfə tezdir.
Performansdan əlavə, səsin bərpası keyfiyyətinin artmasına nail olmaq mümkün oldu - MUSHRA miqyasına görə, Lyra V3.2 kodekindən istifadə edərkən 6 kbps, 9.2 kbps və 2 kbps bit sürətlərində nitq keyfiyyəti 10 kbps bit sürətinə uyğun gəlir. Opus kodekindən istifadə edərkən , 13 kbps və 14 kbps.
Mənbə: opennet.ru
