Facebook maşın öyrənməsindən istifadə edərək EnCodec audio kodekini dərc edir

Meta/Facebook (Rusiya Federasiyasında qadağandır) keyfiyyətini itirmədən sıxılma nisbətini artırmaq üçün maşın öyrənmə metodlarından istifadə edən yeni EnCodec audio kodekini təqdim etdi. Kodek həm real vaxtda audio axını üçün, həm də sonradan fayllarda saxlamaq üçün kodlaşdırma üçün istifadə edilə bilər. EnCodec istinad tətbiqi PyTorch çərçivəsindən istifadə edərək Python dilində yazılmışdır və yalnız qeyri-kommersiya məqsədləri üçün istifadə üçün CC BY-NC 4.0 (Creative Commons Attribution-Qeyri-Kommersiya) lisenziyası əsasında lisenziyalaşdırılmışdır.

Yükləmək üçün iki hazır model təklif olunur:

  • 24 kHz seçmə sürətindən istifadə edən, yalnız monofonik səsi dəstəkləyən və müxtəlif audio datası (nitq kodlaşdırması üçün uyğun) üzrə təlim keçmiş səbəb modeli. Model 1.5, 3, 6, 12 və 24 kbps bit sürətlərində ötürülmək üçün audio məlumatların paketlənməsi üçün istifadə edilə bilər.
  • 48 kHz seçmə tezliyindən istifadə edən, stereo audionu dəstəkləyən və yalnız musiqi üzərində öyrədilmiş qeyri-kauzal model. Model 3, 6, 12 və 24 kbps bit sürətlərini dəstəkləyir.

Hər bir model üçün əlavə dil modeli hazırlanmışdır ki, bu da keyfiyyət itkisi olmadan sıxılma nisbətinin əhəmiyyətli dərəcədə artmasına (40% -ə qədər) nail olmağa imkan verir. Audio sıxılma üçün maşın öyrənmə üsullarından istifadə edərək əvvəllər hazırlanmış layihələrdən fərqli olaraq, EnCodec yalnız nitq qablaşdırması üçün deyil, həm də audio CD-lərin səviyyəsinə uyğun gələn 48 kHz seçmə tezliyi ilə musiqi sıxılması üçün istifadə edilə bilər. Yeni kodek tərtibatçılarının fikrincə, MP64 formatı ilə müqayisədə 3 kbps bit sürəti ilə ötürüldükdə, eyni keyfiyyət səviyyəsini (məsələn, istifadə edərkən) saxlamaqla audio sıxılma dərəcəsini təxminən on dəfə artıra bildilər. MP3, 64 kbps bant genişliyi tələb olunur, bununla ötürmə üçün EnCodec-də eyni keyfiyyət 6 kbps kifayətdir).

Kodek arxitekturası “transformator” arxitekturasına malik neyron şəbəkəsi üzərində qurulub və dörd linkə əsaslanır: kodlayıcı, kvantizator, dekoder və diskriminator. Kodlayıcı səs məlumatlarının parametrlərini çıxarır və dolu axını daha aşağı kadr sürətinə çevirir. Kvantizator (RVQ, Qalıq Vektor Kvantizatoru) kodlayıcı tərəfindən axın çıxışını seçilmiş bit sürəti əsasında məlumatı sıxaraq paket dəstlərinə çevirir. Kvantizatorun çıxışı məlumatların sıxılmış təsviridir, şəbəkə üzərindən ötürülmək və ya diskdə saxlamaq üçün uyğundur.

Dekoder verilənlərin sıxılmış təsvirini deşifrə edir və orijinal səs dalğasını yenidən qurur. Diskriminator insanın eşitmə qavrayış modelini nəzərə alaraq yaradılan nümunələrin keyfiyyətini yaxşılaşdırır. Keyfiyyət və bit sürəti səviyyəsindən asılı olmayaraq, kodlaşdırma və dekodlaşdırma üçün istifadə olunan modellər kifayət qədər təvazökar resurs tələbləri ilə fərqlənir (real vaxtda işləmək üçün lazım olan hesablamalar bir CPU nüvəsində aparılır).

Facebook maşın öyrənməsindən istifadə edərək EnCodec audio kodekini dərc edir


Mənbə: opennet.ru

Добавить комментарий