Google zəif əlaqə keyfiyyətində nitqin ötürülməsi üçün Lyra audio kodekini nəşr etdi

Google, hətta çox yavaş kommunikasiya kanallarından istifadə edərkən maksimum səs keyfiyyətinə nail olmaq üçün optimallaşdırılmış yeni audio kodek olan Lyra təqdim etdi. Lyra tətbiq kodu C++ dilində yazılmışdır və Apache 2.0 lisenziyası altında açıqdır, lakin işləmək üçün tələb olunan asılılıqlar arasında riyazi hesablamalar üçün nüvə tətbiqi ilə libsparse_inference.so xüsusi kitabxanası var. Qeyd olunur ki, mülkiyyət kitabxanası müvəqqəti xarakter daşıyır - gələcəkdə Google açıq əvəzetmə hazırlamağı və müxtəlif platformalara dəstək göstərməyi vəd edir.

Aşağı sürətlərdə ötürülən səs məlumatlarının keyfiyyəti baxımından Lyra rəqəmsal siqnalın işlənməsi üsullarından istifadə edən ənənəvi kodeklərdən əhəmiyyətli dərəcədə üstündür. Məhdud miqdarda ötürülən məlumat şəraitində yüksək keyfiyyətli səs ötürülməsinə nail olmaq üçün, adi audio sıxılma və siqnalın çevrilməsi üsullarına əlavə olaraq, Lyra maşın öyrənmə sisteminə əsaslanan nitq modelindən istifadə edir ki, bu da məlumat əsasında itkin məlumatları yenidən yaratmağa imkan verir. tipik nitq xüsusiyyətləri. Səs yaratmaq üçün istifadə edilən model 70-dən çox dildə bir neçə min saatlıq səs yazılarından istifadə etməklə öyrədilib.

Google zəif əlaqə keyfiyyətində nitqin ötürülməsi üçün Lyra audio kodekini nəşr etdi

Kodekə kodlayıcı və dekoder daxildir. Kodlayıcının alqoritmi səs məlumatı parametrlərini hər 40 millisaniyədən bir çıxarmaq, onları sıxışdırmaq və şəbəkə üzərindən alıcıya ötürməkdən ibarətdir. Məlumatların ötürülməsi üçün saniyədə 3 kilobit sürəti olan rabitə kanalı kifayətdir. Çıxarılan audio parametrlərə müxtəlif tezlik diapazonlarında nitqin enerji xüsusiyyətlərini nəzərə alan və insanın eşitmə qavrayış modeli nəzərə alınmaqla hazırlanan loqarifmik mel spektroqramları daxildir.

Google zəif əlaqə keyfiyyətində nitqin ötürülməsi üçün Lyra audio kodekini nəşr etdi

Dekoder ötürülən səs parametrlərinə əsaslanaraq nitq siqnalını yenidən yaradan generativ modeldən istifadə edir. Hesablamaların mürəkkəbliyini azaltmaq üçün daha aşağı seçmə tezliyindən istifadə edən, lakin müxtəlif tezlik diapazonlarında paralel olaraq bir neçə siqnal yaradan WaveRNN nitq sintezi modelinin variantı olan təkrarlanan neyron şəbəkəsinə əsaslanan yüngül modeldən istifadə edilmişdir. Nəticə siqnallar daha sonra müəyyən edilmiş seçmə sürətinə uyğun gələn tək çıxış siqnalı yaratmaq üçün üst-üstə qoyulur.

64 bitlik ARM prosessorlarında mövcud olan xüsusi prosessor təlimatları da sürətləndirmə üçün istifadə olunur. Nəticədə, maşın öyrənməsinin istifadəsinə baxmayaraq, Lyra kodekindən siqnal ötürülməsinin 90 millisaniyə gecikməsini nümayiş etdirərək real vaxt rejimində orta səviyyəli smartfonlarda nitqin kodlaşdırılması və dekodlanması üçün istifadə oluna bilər.

Mənbə: opennet.ru

Добавить комментарий