NVIDIA, Mozilla Common Voice projesine 1.5 milyon dolar yatırım yapıyor

NVIDIA, Mozilla Common Voice projesine 1.5 milyon dolar yatırım yapıyor. Konuşma tanıma sistemlerine olan ilgi, önümüzdeki on yıl içinde ses teknolojisinin, insanların bilgisayarlardan telefonlara, dijital asistanlardan kiosklara kadar çeşitli cihazlarla etkileşimde bulunmanın ana yollarından biri haline geleceği öngörüsünden kaynaklanmaktadır.

Ses sistemlerinin performansı büyük ölçüde makine öğrenimi modellerinin eğitimi için mevcut olan ses verilerinin hacmine ve çeşitliliğine bağlıdır. Günümüzün ses teknolojisi öncelikle İngilizce dilinin tanınmasına odaklanmaktadır ve çok çeşitli dilleri, aksanları ve konuşma kalıplarını kapsamamaktadır. Yatırım, kamusal ses verilerinin büyümesinin hızlandırılmasına, daha fazla topluluk ve gönüllünün katılımına ve tam zamanlı proje personeli sayısının artırılmasına yardımcı olacak.

Common Voice projesinin, seslerin ve konuşma tarzlarının çeşitliliğini dikkate alan bir ses kalıpları veri tabanı biriktirmek için ortak çalışmalar düzenlemeyi amaçladığını hatırlatalım. Kullanıcılar ekranda görüntülenen sesli ifadeleri dinlemeye veya diğer kullanıcılar tarafından eklenen verilerin kalitesini değerlendirmeye davet edilir. İnsan konuşmasındaki tipik ifadelerin çeşitli telaffuzlarının kayıtlarını içeren birikmiş veri tabanı, makine öğrenimi sistemlerinde ve araştırma projelerinde kısıtlama olmaksızın kullanılabilir.

Common Voice seti şu anda 164'den fazla kişiden alınan telaffuz örneklerini içermektedir. 9 farklı dilde yaklaşık 60 bin saatlik ses verisi birikti. Rus dili için set 1412 katılımcıyı ve 111 saatlik konuşma materyalini, Ukrayna dili için ise 459 katılımcıyı ve 30 saati kapsamaktadır. Karşılaştırma yapmak gerekirse, İngilizce materyallerin hazırlanmasına 66 binden fazla kişi katıldı ve 1686 saatlik doğrulanmış konuşma dikte edildi. Önerilen kümeler, makine öğrenimi sistemlerinde konuşma tanıma ve sentez modelleri oluşturmak için kullanılabilir. Veriler kamu malı (CC0) olarak yayınlanır.

Vosk sürekli konuşma tanıma kütüphanesinin yazarına göre Common Voice setinin dezavantajları, ses materyalinin tek taraflılığı (20-30 yaş arası erkeklerin baskınlığı ve kadınların seslerini içeren materyalin olmaması) , çocuklar ve yaşlılar), sözlükte değişkenlik olmaması (aynı ifadelerin tekrarlanması) ve kayıtların MP3 formatını bozan şekilde dağıtılması.

Kaynak: opennet.ru

Yorum ekle