Mozilla Common Voice 7.0 Güncelleme

NVIDIA ve Mozilla, 182 ay öncesine göre %25 artışla 6 kişinin konuşma örneklerini içeren Common Voice veri kümeleri için bir güncelleme yayınladı. Veriler kamu malı (CC0) olarak yayınlanır. Önerilen kümeler, makine öğrenimi sistemlerinde konuşma tanıma ve sentez modelleri oluşturmak için kullanılabilir.

Önceki güncellemeyle karşılaştırıldığında koleksiyondaki konuşma materyalinin boyutu 9 bin konuşma saatinden 13.9 bin saate çıktı. Desteklenen dillerin sayısı 60'tan 76'ya çıktı; ilk kez Belarusça, Kazakça, Özbekçe, Bulgarca, Ermenice, Azerice ve Başkurtça dilleri de destekleniyor. Rus dili için set 2136 katılımcıyı ve 173 saatlik konuşma materyalini (1412 katılımcı ve 111 saat) ve Ukrayna dili için - 615 katılımcı ve 66 saati (459 katılımcı ve 30 saat) kapsamaktadır.

İngilizce materyallerin hazırlanmasına 75 binden fazla kişi katıldı ve 2637 saat onaylı konuşma dikte edildi (66 bin katılımcı ve 1686 saat vardı). İlginçtir ki, biriken veri miktarı açısından ikinci sırada yer alan dil, 2260 saatin toplandığı Ruanda'dır. Bunu Almanca (1040), Katalanca (920) ve Esperanto (840) takip ediyor. Ses verilerinin boyutunu dinamik olarak artıranlar arasında Tay dili (tabanda 20 kat artış, 12'den 250 saate), Luganda (8'den 80 saate), Esperanto (100'den 840 saate) ve Tamil dili ( 24 ila 220 saat arası).saat).

NVIDIA, Common Voice projesine katılımı kapsamında, toplanan verilere dayanarak makine öğrenimi sistemleri için (PyTorch tarafından desteklenen) hazır eğitimli modeller hazırladı. Modeller, örneğin MTS ve Sberbank'ın otomatik ses hizmetlerinde halihazırda kullanılan ücretsiz ve açık NVIDIA NeMo araç setinin bir parçası olarak dağıtılmaktadır. Modellerin konuşma tanıma, konuşma sentezi ve doğal dil işleme sistemlerinde kullanılması amaçlanıyor ve sesle etkinleştirilen diyalog sistemleri, transkripsiyon platformları ve otomatik çağrı merkezleri geliştiren araştırmacılar için yararlı olabilir. Daha önce mevcut olan projelerden farklı olarak, yayınlanan modeller İngilizce dilinin tanınmasıyla sınırlı değildir ve çeşitli dilleri, aksanları ve konuşma biçimlerini kapsamaktadır.

Common Voice projesinin, seslerin ve konuşma tarzlarının çeşitliliğini dikkate alan bir ses kalıpları veri tabanı biriktirmek için ortak çalışmalar düzenlemeyi amaçladığını hatırlatalım. Kullanıcılar ekranda görüntülenen sesli ifadeleri dinlemeye veya diğer kullanıcılar tarafından eklenen verilerin kalitesini değerlendirmeye davet edilir. İnsan konuşmasındaki tipik ifadelerin çeşitli telaffuzlarının kayıtlarını içeren birikmiş veri tabanı, makine öğrenimi sistemlerinde ve araştırma projelerinde kısıtlama olmaksızın kullanılabilir.

Vosk sürekli konuşma tanıma kütüphanesinin yazarına göre Common Voice setinin dezavantajları, ses materyalinin tek taraflılığı (20-30 yaş arası erkeklerin baskınlığı ve kadınların seslerini içeren materyalin olmaması) , çocuklar ve yaşlılar), sözlükte değişkenlik olmaması (aynı ifadelerin tekrarlanması) ve kayıtların MP3 formatını bozan şekilde dağıtılması.

Kaynak: opennet.ru

Yorum ekle