Mozilla Common Voice 9.0 жаңартуы

Mozilla 200 0-ға жуық адамның айтылу үлгілерін қамтитын Common Voice деректер жиынының жаңартуын шығарды. Деректер қоғамдық домен (CCXNUMX) ретінде жарияланады. Ұсынылған жинақтарды сөзді тану және синтездеу үлгілерін құру үшін машиналық оқыту жүйелерінде пайдалануға болады.

Алдыңғы жаңартумен салыстырғанда жинақтағы сөйлеу материалының көлемі 10%-ға – 18.2-ден 20.2 мың сөйлеу сағатына дейін өсті. Қолдау көрсетілетін тілдердің саны 87-ден 93-ке дейін өсті. 27 тіл үшін 100 сағаттан астам сөйлеу деректері, ал 9-да 500 сағаттан астам сөйлеу деректері жинақталған. 9 тілде кем дегенде 45% әйел сөйлеу үлесіне қол жеткізуге болады.

Ағылшын тілінде материалдарды дайындауға 81 сағат сөйлеуді диктантпен 2953 мыңнан астам адам қатысты (79 мың қатысушы және 2886 сағат). Беларусь тілі бойынша жиынтықта 6326 қатысушы және 1054 сағат сөйлеу материалы (6160 қатысушы және 987 сағат), орыс тілі - 2585 қатысушы және 201 сағат (2452 қатысушы және 193 сағат), өзбек тілі - 1503 қатысушы және 231 сағат ( 1355 қатысушы және 227 сағат), украин тілі – 696 қатысушы және 79 сағат (684 қатысушы және 76 сағат) болды.

«Жалпы дауыс» жобасы дауыстар мен сөйлеу мәнерлерінің әртүрлілігін ескеретін дауыс үлгілерінің дерекқорын жинақтау бойынша бірлескен жұмысты ұйымдастыруға бағытталған. Пайдаланушылар экранда көрсетілетін дауыстық сөйлемдерге немесе басқа пайдаланушылар қосқан деректердің сапасын бағалауға шақырылады. Адам сөйлеуінің типтік сөз тіркестерінің әртүрлі айтылу жазбалары бар жинақталған мәліметтер базасын машиналық оқыту жүйелерінде және ғылыми жобаларда шектеусіз пайдалануға болады.

Ақпарат көзі: opennet.ru

пікір қалдыру