Google, düşük bağlantı kalitesinde konuşma aktarımı için Lyra ses codec bileşenini yayınladı

Google, çok yavaş iletişim kanallarını kullanırken bile maksimum ses kalitesi elde etmek için optimize edilmiş yeni bir ses codec bileşeni olan Lyra'yı piyasaya sürdü. Lyra uygulama kodu C++ dilinde yazılmıştır ve Apache 2.0 lisansı altında açıktır, ancak işlem için gereken bağımlılıklar arasında, matematiksel hesaplamalar için çekirdek uygulamasına sahip özel bir libsparse_inference.so kütüphanesi bulunmaktadır. Tescilli kitaplığın geçici olduğu belirtiliyor; gelecekte Google, açık bir değiştirme geliştirmeyi ve çeşitli platformlar için destek sağlamayı vaat ediyor.

Düşük hızlarda iletilen ses verilerinin kalitesi açısından Lyra, dijital sinyal işleme yöntemlerini kullanan geleneksel codec bileşenlerinden önemli ölçüde üstündür. Sınırlı miktarda iletilen bilgi koşullarında yüksek kaliteli ses iletimi elde etmek için, geleneksel ses sıkıştırma ve sinyal dönüştürme yöntemlerine ek olarak Lyra, eksik bilgileri temel alarak yeniden oluşturmanıza olanak tanıyan bir makine öğrenme sistemine dayalı bir konuşma modeli kullanır. Tipik konuşma özellikleri. Sesi üretmek için kullanılan model, 70'den fazla dilde binlerce saatlik ses kaydı kullanılarak eğitildi.

Google, düşük bağlantı kalitesinde konuşma aktarımı için Lyra ses codec bileşenini yayınladı

Codec bir kodlayıcı ve bir kod çözücü içerir. Kodlayıcının algoritması, her 40 milisaniyede bir ses verisi parametrelerinin çıkarılması, sıkıştırılması ve ağ üzerinden alıcıya iletilmesinden ibarettir. Veri iletimi için saniyede 3 kilobit hızında bir iletişim kanalı yeterlidir. Çıkarılan ses parametreleri, farklı frekans aralıklarındaki konuşmanın enerji özelliklerini dikkate alan ve insanın işitsel algı modeli dikkate alınarak hazırlanan logaritmik mel spektrogramlarını içerir.

Google, düşük bağlantı kalitesinde konuşma aktarımı için Lyra ses codec bileşenini yayınladı

Kod çözücü, iletilen ses parametrelerine dayalı olarak konuşma sinyalini yeniden oluşturan üretken bir model kullanır. Hesaplamaların karmaşıklığını azaltmak için, daha düşük bir örnekleme frekansı kullanan ancak farklı frekans aralıklarında paralel olarak birkaç sinyal üreten WaveRNN konuşma sentezi modelinin bir çeşidi olan tekrarlayan bir sinir ağına dayalı hafif bir model kullanıldı. Sonuçta ortaya çıkan sinyaller daha sonra belirlenen örnekleme hızına karşılık gelen tek bir çıkış sinyali üretmek üzere üst üste bindirilir.

64 bit ARM işlemcilerde bulunan özel işlemci talimatları da hızlandırma için kullanılır. Sonuç olarak, makine öğreniminin kullanılmasına rağmen Lyra codec'i, orta sınıf akıllı telefonlarda gerçek zamanlı konuşma kodlama ve kod çözme için kullanılabilir ve 90 milisaniyelik sinyal iletim gecikmesini gösterir.

Kaynak: opennet.ru

Yorum ekle