Facebook, makine öğrenimini kullanarak EnCodec ses codec bileşenini yayınladı

Meta/Facebook (Rusya Federasyonu'nda yasaklanmıştır), kaliteyi kaybetmeden sıkıştırma oranını artırmak için makine öğrenimi yöntemlerini kullanan yeni bir ses codec'i olan EnCodec'i tanıttı. Codec, hem gerçek zamanlı ses akışı için hem de daha sonra dosyalara kaydedilmek üzere kodlama için kullanılabilir. EnCodec referans uygulaması Python'da PyTorch çerçevesi kullanılarak yazılmıştır ve yalnızca ticari olmayan kullanım için CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) lisansı kapsamında lisanslanmıştır.

İndirmek için iki hazır model sunulmaktadır:

  • 24 kHz örnekleme hızı kullanan, yalnızca monofonik sesi destekleyen ve çeşitli ses verileriyle eğitilmiş (konuşma kodlamaya uygun) nedensel bir model. Model, 1.5, 3, 6, 12 ve 24 kbps bit hızlarında iletim için ses verilerini paketlemek için kullanılabilir.
  • 48 kHz örnekleme hızı kullanan, stereo sesi destekleyen ve yalnızca müzik konusunda eğitilmiş, nedensel olmayan bir model. Model 3, 6, 12 ve 24 kbps bit hızlarını destekler.

Her model için, kalite kaybı olmadan sıkıştırma oranında (%40'a kadar) önemli bir artış elde etmenizi sağlayan ek bir dil modeli hazırlanmıştır. Ses sıkıştırma için makine öğrenimi yöntemlerini kullanan daha önce geliştirilen projelerden farklı olarak EnCodec, yalnızca konuşma paketleme için değil, aynı zamanda ses CD'lerinin düzeyine karşılık gelen 48 kHz örnekleme hızıyla müzik sıkıştırma için de kullanılabilir. Yeni codec bileşeninin geliştiricilerine göre, MP64 formatına kıyasla 3 kbps bit hızıyla iletim yaparken, aynı kalite seviyesini korurken ses sıkıştırma derecesini yaklaşık on kat artırmayı başardılar (örneğin, kullanırken) MP3, EnCodec'te aynı kalitede iletim için 64 kbps bant genişliği gereklidir, 6 kbps yeterlidir).

Codec mimarisi, "transformatör" mimarisine sahip bir sinir ağı üzerine inşa edilmiştir ve dört bağlantıya dayanmaktadır: kodlayıcı, niceleyici, kod çözücü ve ayırıcı. Kodlayıcı, ses verilerinin parametrelerini çıkarır ve paketlenmiş akışı daha düşük bir kare hızına dönüştürür. Niceleyici (RVQ, Artık Vektör Niceleyici), kodlayıcının akış çıkışını paket kümelerine dönüştürür ve bilgileri seçilen bit hızına göre sıkıştırır. Kuantizörün çıktısı, bir ağ üzerinden iletilmeye veya diske kaydedilmeye uygun, verilerin sıkıştırılmış bir temsilidir.

Kod çözücü, verilerin sıkıştırılmış gösteriminin kodunu çözer ve orijinal ses dalgasını yeniden oluşturur. Ayırıcı, insanın işitsel algı modelini dikkate alarak oluşturulan örneklerin kalitesini artırır. Kalite seviyesi ve bit hızı ne olursa olsun, kodlama ve kod çözme için kullanılan modeller oldukça mütevazı kaynak gereksinimleriyle ayırt edilir (gerçek zamanlı işlem için gerekli hesaplamalar tek bir CPU çekirdeği üzerinde gerçekleştirilir).

Facebook, makine öğrenimini kullanarak EnCodec ses codec bileşenini yayınladı


Kaynak: opennet.ru

Yorum ekle