NVIDIA Mozilla Common Voice loyihasiga 1.5 million dollar sarmoya kiritadi

NVIDIA Mozilla Common Voice loyihasiga 1.5 million dollar sarmoya kiritmoqda. Nutqni aniqlash tizimlariga qiziqish kelgusi o'n yil ichida ovoz texnologiyasi odamlarning kompyuter va telefonlardan tortib raqamli yordamchilar va kiosklargacha bo'lgan qurilmalar bilan o'zaro aloqa qilishning asosiy usullaridan biriga aylanishi haqidagi bashoratdan kelib chiqadi.

Ovoz tizimlarining ishlashi mashinani o'rganish modellarini o'rgatish uchun mavjud bo'lgan ovozli ma'lumotlarning hajmi va xilma-xilligiga juda bog'liq. Bugungi ovoz texnologiyasi asosan ingliz tilini aniqlashga qaratilgan va tillar, urg'u va nutq shakllarining keng doirasini qamrab olmaydi. Investitsiyalar ommaviy ovozli ma'lumotlarning o'sishini tezlashtirishga, ko'proq jamoalar va ko'ngillilarni jalb qilishga va to'liq vaqtli loyiha xodimlari sonini kengaytirishga yordam beradi.

Eslatib o‘tamiz, “Common Voice” loyihasi ovozlar va nutq uslublari xilma-xilligini hisobga olgan holda ovoz namunalari bazasini to‘plash bo‘yicha qo‘shma ishlarni tashkil etishga qaratilgan. Foydalanuvchilar ekranda ko'rsatilgan ovozli iboralarga taklif qilinadi yoki boshqa foydalanuvchilar tomonidan qo'shilgan ma'lumotlar sifatini baholaydi. Inson nutqining tipik iboralarining turli talaffuzlari yozuvlari bilan to'plangan ma'lumotlar bazasidan mashinani o'rganish tizimlarida va tadqiqot loyihalarida cheklovlarsiz foydalanish mumkin.

Common Voice to'plami hozirda 164 9 dan ortiq odamning talaffuz namunalarini o'z ichiga oladi. 60 xil tilda 1412 ming soatga yaqin ovozli maʼlumotlar toʻplangan. Rus tili uchun to'plam 111 ishtirokchi va 459 soat nutq materialini, ukrain tili uchun esa 30 ishtirokchi va 66 soatni qamrab oladi. Taqqoslash uchun, ingliz tilida materiallarni tayyorlashda 1686 mingdan ortiq kishi ishtirok etdi, ular 0 soatlik tasdiqlangan nutqni aytib berishdi. Tavsiya etilgan to'plamlardan nutqni aniqlash va sintez modellarini yaratish uchun mashinani o'rganish tizimlarida foydalanish mumkin. Ma'lumotlar jamoat mulki sifatida e'lon qilinadi (CCXNUMX).

Vosk uzluksiz nutqni aniqlash kutubxonasi muallifiga ko'ra, Common Voice to'plamining kamchiliklari ovozli materialning bir tomonlamaligi (20-30 yoshli erkaklarning ustunligi va ayollar ovozi bilan materialning etishmasligi) , bolalar va qariyalar), lug'atda o'zgaruvchanlikning yo'qligi (bir xil iboralarni takrorlash) va yozuvlarni buzuvchi MP3 formatida tarqatish.

Manba: opennet.ru

a Izoh qo'shish