Mozilla Common Voice 12.0 Güncelleme

Mozilla, Common Voice veri kümelerini 200'den fazla kişiden alınan telaffuz örneklerini içerecek şekilde güncelledi. Veriler kamu malı (CC0) olarak yayınlanır. Önerilen kümeler, makine öğrenimi sistemlerinde konuşma tanıma ve sentez modelleri oluşturmak için kullanılabilir.

Önceki güncellemeyle karşılaştırıldığında koleksiyondaki konuşma materyalinin hacmi 23.8 bin konuşma saatinden 25.8 bin saate çıktı. İngilizce materyallerin hazırlanmasına 88 binden fazla kişi katıldı ve 3161 saatlik konuşma dikte edildi (84 bin katılımcı ve 3098 saat vardı). Belarus dili seti 7903 katılımcı ve 1419 saatlik konuşma materyali (6965 katılımcı ve 1217 saat), Rusça - 2815 katılımcı ve 229 saat (2731 katılımcı ve 215 saat), Özbekçe - 2092 katılımcı ve 262 saat ( 2025 katılımcı ve 258 saat vardı), Ukrayna dili - 780 katılımcı ve 87 saat (759 katılımcı ve 87 saat vardı).

Common Voice projesi, seslerin ve konuşma tarzlarının çeşitliliğini dikkate alan bir ses kalıpları veri tabanı biriktirmek için ortak çalışmalar düzenlemeyi amaçlıyor. Kullanıcılar ekranda görüntülenen sesli ifadeleri dinlemeye veya diğer kullanıcılar tarafından eklenen verilerin kalitesini değerlendirmeye davet edilir. İnsan konuşmasındaki tipik ifadelerin çeşitli telaffuzlarının kayıtlarını içeren birikmiş veri tabanı, makine öğrenimi sistemlerinde ve araştırma projelerinde kısıtlama olmaksızın kullanılabilir.

Kaynak: opennet.ru

Yorum ekle