Mozilla Common Voice 12.0 жаңартуы

Mozilla 200 0-нан астам адамның айтылу үлгілерін қосу үшін Common Voice деректер жиынын жаңартты. Деректер қоғамдық домен (CCXNUMX) ретінде жарияланады. Ұсынылған жинақтарды сөзді тану және синтездеу үлгілерін құру үшін машиналық оқыту жүйелерінде пайдалануға болады.

Алдыңғы жаңартумен салыстырғанда жинақтағы сөйлеу материалының көлемі 23.8-ден 25.8 мың сөйлеу сағатына дейін өсті. Ағылшын тілінде материалдар дайындауға 88 сағат сөйлеуді (3161 мың қатысушы және 84 сағат) диктантпен 3098 мыңнан астам адам қатысты. Беларусь тілі бойынша жиынтықта 7903 қатысушы және 1419 сағат сөйлеу материалы (6965 қатысушы және 1217 сағат), орыс тілі - 2815 қатысушы және 229 сағат (2731 қатысушы және 215 сағат), өзбек тілі - 2092 қатысушы және 262 сағат ( 2025 қатысушы және 258 сағат), украин тілі – 780 қатысушы және 87 сағат (759 қатысушы және 87 сағат) болды.

«Жалпы дауыс» жобасы дауыстар мен сөйлеу мәнерлерінің әртүрлілігін ескеретін дауыс үлгілерінің дерекқорын жинақтау бойынша бірлескен жұмысты ұйымдастыруға бағытталған. Пайдаланушылар экранда көрсетілетін дауыстық сөйлемдерге немесе басқа пайдаланушылар қосқан деректердің сапасын бағалауға шақырылады. Адам сөйлеуінің типтік сөз тіркестерінің әртүрлі айтылу жазбалары бар жинақталған мәліметтер базасын машиналық оқыту жүйелерінде және ғылыми жобаларда шектеусіз пайдалануға болады.

Ақпарат көзі: opennet.ru

пікір қалдыру