Mozilla Common Voice 8.0 yangilanishi

Mozilla 200 0 ga yaqin odamning talaffuz namunalarini o'z ichiga olgan Common Voice ma'lumotlar to'plamining yangilanishini chiqardi. Ma'lumotlar jamoat mulki sifatida e'lon qilinadi (CC30). Tavsiya etilgan to'plamlardan nutqni aniqlash va sintez modellarini yaratish uchun mashinani o'rganish tizimlarida foydalanish mumkin. Oldingi yangilanish bilan solishtirganda, to'plamdagi nutq materialining hajmi 13.9 foizga oshdi - 18.2 dan 67 ming soat nutq. Qo'llab-quvvatlanadigan tillar soni 87 dan XNUMX tagacha ko'tarildi.

Rus tili bo'yicha to'plam 2452 ishtirokchi va 193 soat nutq materialini (2136 ishtirokchi va 173 soat), belarus tili uchun - 6160 ishtirokchi va 987 soat (3831 ishtirokchi va 356 soat), ukrain tili uchun - 684 ishtirokchi va 76 soat (615 ishtirokchi va 66 soat). Ingliz tilidagi materiallarni tayyorlashda 79 soat tasdiqlangan nutqni (2886 ming ishtirokchi va 75 soat) diktant qilgan 2637 mingdan ortiq kishi ishtirok etdi.

Eslatib o‘tamiz, “Common Voice” loyihasi ovozlar va nutq uslublari xilma-xilligini hisobga olgan holda ovoz namunalari bazasini to‘plash bo‘yicha qo‘shma ishlarni tashkil etishga qaratilgan. Foydalanuvchilar ekranda ko'rsatilgan ovozli iboralarga taklif qilinadi yoki boshqa foydalanuvchilar tomonidan qo'shilgan ma'lumotlar sifatini baholaydi. Inson nutqining tipik iboralarining turli talaffuzlari yozuvlari bilan to'plangan ma'lumotlar bazasidan mashinani o'rganish tizimlarida va tadqiqot loyihalarida cheklovlarsiz foydalanish mumkin. Vosk uzluksiz nutqni aniqlash kutubxonasi muallifiga ko'ra, Common Voice to'plamining kamchiliklari ovozli materialning bir tomonlamaligi (20-30 yoshli erkaklarning ustunligi va ayollar ovozi bilan materialning etishmasligi) , bolalar va qariyalar), lug'atda o'zgaruvchanlikning yo'qligi (bir xil iboralarni takrorlash) va yozuvlarni buzuvchi MP3 formatida tarqatish.

Bundan tashqari, NVIDIA NeMo 1.6 asboblar to'plamining chiqarilishini qayd etishimiz mumkin, u nutqni aniqlash tizimlarini yaratish, nutq sintezi va tabiiy tilni qayta ishlash uchun mashinani o'rganish usullarini taqdim etadi. NeMo NVIDIA tomonidan Common Voice nutq ma'lumotlaridan foydalangan holda tayyorlangan va turli tillar, urg'u va nutq shakllarini qamrab oluvchi PyTorch tizimiga asoslangan mashinani o'rganish tizimlari uchun foydalanishga tayyor o'qitilgan modellarni o'z ichiga oladi. Modellar ovozli dialog tizimlari, transkripsiya platformalari va avtomatlashtirilgan qo'ng'iroq markazlarini ishlab chiquvchi tadqiqotchilar uchun foydali bo'lishi mumkin. Misol uchun, NVIDIA NeMo MTS va Sberbankning avtomatlashtirilgan ovozli xizmatlarida qo'llaniladi. NeMo kodi PyTorch yordamida Python tilida yozilgan va Apache 2.0 litsenziyasi ostida tarqatiladi.

Manba: opennet.ru

a Izoh qo'shish