Mozilla Common Voice 8.0 Güncelleme

Mozilla, Common Voice veri kümelerinde yaklaşık 200 kişiden alınan telaffuz örneklerini içeren bir güncelleme yayınladı. Veriler kamu malı (CC0) olarak yayınlanır. Önerilen kümeler, makine öğrenme sistemlerinde konuşma tanıma ve sentez modelleri oluşturmak için kullanılabilir. Önceki güncellemeyle karşılaştırıldığında koleksiyondaki konuşma materyalinin hacmi %30 artarak 13.9 bin konuşma saatinden 18.2 bin saate çıktı. Desteklenen dil sayısı 67'den 87'ye çıktı.

Rus dili için set 2452 katılımcıyı ve 193 saatlik konuşma materyalini (2136 katılımcı ve 173 saat vardı), Belarus dili için - 6160 katılımcı ve 987 saati (3831 katılımcı ve 356 saat vardı), Ukrayna dili için - kapsıyor - 684 katılımcı ve 76 saat (615 katılımcı ve 66 saat vardı). İngilizce materyallerin hazırlanmasına 79 binden fazla kişi katıldı ve 2886 saatlik onaylı konuşma dikte edildi (75 bin katılımcı ve 2637 saat vardı).

Common Voice projesinin, seslerin ve konuşma tarzlarının çeşitliliğini dikkate alan bir ses kalıpları veri tabanı biriktirmek için ortak çalışmalar düzenlemeyi amaçladığını hatırlatalım. Kullanıcılar ekranda görüntülenen sesli ifadeleri dinlemeye veya diğer kullanıcılar tarafından eklenen verilerin kalitesini değerlendirmeye davet edilir. İnsan konuşmasındaki tipik ifadelerin çeşitli telaffuzlarının kayıtlarını içeren birikmiş veri tabanı, makine öğrenimi sistemlerinde ve araştırma projelerinde kısıtlama olmaksızın kullanılabilir. Vosk sürekli konuşma tanıma kütüphanesinin yazarına göre Common Voice setinin dezavantajları, ses materyalinin tek taraflılığı (20-30 yaş arası erkeklerin baskınlığı ve kadınların seslerini içeren materyalin olmaması) , çocuklar ve yaşlılar), sözlükte değişkenlik olmaması (aynı ifadelerin tekrarlanması) ve kayıtların MP3 formatını bozan şekilde dağıtılması.

Ek olarak, konuşma tanıma sistemleri, konuşma sentezi ve doğal dil işleme için makine öğrenimi yöntemleri sağlayan NVIDIA NeMo 1.6 araç setinin piyasaya sürüldüğünü de not edebiliriz. NeMo, NVIDIA tarafından Common Voice konuşma verileri kullanılarak hazırlanan ve çeşitli dilleri, aksanları ve konuşma biçimlerini kapsayan, PyTorch çerçevesini temel alan makine öğrenimi sistemleri için kullanıma hazır eğitimli modeller içerir. Modeller, ses tabanlı diyalog sistemleri, transkripsiyon platformları ve otomatik çağrı merkezleri geliştiren araştırmacılar için faydalı olabilir. Örneğin NVIDIA NeMo, MTS ve Sberbank'ın otomatik ses hizmetlerinde kullanılıyor. NeMo kodu Python'da PyTorch kullanılarak yazılmıştır ve Apache 2.0 lisansı altında dağıtılmıştır.

Kaynak: opennet.ru

Yorum ekle