Mozilla Common Voice 7.0 yangilanishi

NVIDIA va Mozilla 182 25 kishining nutq namunalarini o'z ichiga olgan Common Voice ma'lumotlar to'plamini yangilashdi, bu 6 oy oldingiga nisbatan 0% ga ko'p. Ma'lumotlar jamoat mulki sifatida e'lon qilinadi (CCXNUMX). Tavsiya etilgan to'plamlardan nutqni aniqlash va sintez modellarini yaratish uchun mashinani o'rganish tizimlarida foydalanish mumkin.

Avvalgi yangilanish bilan solishtirganda, to‘plamdagi nutq materialining hajmi 9 dan 13.9 ming soat nutqqa oshdi. Qo'llab-quvvatlanadigan tillar soni 60 dan 76 taga ko'paydi, shu jumladan belarus, qozoq, o'zbek, bolgar, arman, ozarbayjon va boshqird tillari birinchi marta qo'llab-quvvatlandi. Rus tili bo'yicha to'plam 2136 ishtirokchi va 173 soat nutq materialini (1412 ishtirokchi va 111 soat), ukrain tili uchun - 615 ishtirokchi va 66 soatni (459 ishtirokchi va 30 soat) qamrab oladi.

Ingliz tilida materiallarni tayyorlashda 75 soat tasdiqlangan nutqni (2637 ming ishtirokchi va 66 soat) diktant qilgan 1686 mingdan ortiq kishi ishtirok etdi. Qizig'i shundaki, to'plangan ma'lumotlar miqdori bo'yicha ikkinchi o'rinda til Ruanda bo'lib, u uchun 2260 soat yig'ilgan. Undan keyin nemis (1040), katalon (920) va esperanto (840) tillari turadi. Ovozli ma'lumotlar hajmini dinamik ravishda o'sib borayotgani orasida Tailand tili (bazada 20 baravar, 12 dan 250 soatgacha), Luganda (8 dan 80 soatgacha), Esperanto (100 dan 840 soatgacha) va Tamil ( 24 dan 220 soatgacha).

Common Voice loyihasidagi ishtiroki doirasida NVIDIA to‘plangan ma’lumotlar asosida mashinani o‘rganish tizimlari (PyTorch tomonidan qo‘llab-quvvatlanadi) uchun tayyor o‘qitilgan modellarni tayyorladi. Modellar bepul va ochiq NVIDIA NeMo asboblar to'plamining bir qismi sifatida tarqatiladi, masalan, MTS va Sberbankning avtomatlashtirilgan ovozli xizmatlarida allaqachon qo'llaniladi. Modellar nutqni aniqlash, nutq sintezi va tabiiy tilni qayta ishlash tizimlarida foydalanish uchun mo‘ljallangan bo‘lib, ular ovoz bilan faollashtirilgan dialog tizimlari, transkripsiya platformalari va avtomatlashtirilgan qo‘ng‘iroq markazlarini yaratuvchi tadqiqotchilar uchun foydali bo‘lishi mumkin. Ilgari mavjud bo'lgan loyihalardan farqli o'laroq, nashr etilgan modellar ingliz tilini tanib olish bilan cheklanmaydi va turli tillar, urg'u va nutq shakllarini qamrab oladi.

Eslatib o‘tamiz, “Common Voice” loyihasi ovozlar va nutq uslublari xilma-xilligini hisobga olgan holda ovoz namunalari bazasini to‘plash bo‘yicha qo‘shma ishlarni tashkil etishga qaratilgan. Foydalanuvchilar ekranda ko'rsatilgan ovozli iboralarga taklif qilinadi yoki boshqa foydalanuvchilar tomonidan qo'shilgan ma'lumotlar sifatini baholaydi. Inson nutqining tipik iboralarining turli talaffuzlari yozuvlari bilan to'plangan ma'lumotlar bazasidan mashinani o'rganish tizimlarida va tadqiqot loyihalarida cheklovlarsiz foydalanish mumkin.

Vosk uzluksiz nutqni aniqlash kutubxonasi muallifiga ko'ra, Common Voice to'plamining kamchiliklari ovozli materialning bir tomonlamaligi (20-30 yoshli erkaklarning ustunligi va ayollar ovozi bilan materialning etishmasligi) , bolalar va qariyalar), lug'atda o'zgaruvchanlikning yo'qligi (bir xil iboralarni takrorlash) va yozuvlarni buzuvchi MP3 formatida tarqatish.

Manba: opennet.ru

a Izoh qo'shish