Mozilla Common Voice 8.0 жаңартуы

Mozilla 200 0-ға жуық адамның айтылу үлгілерін қамтитын Common Voice деректер жиынының жаңартуын шығарды. Деректер қоғамдық домен (CC30) ретінде жарияланады. Ұсынылған жинақтарды сөзді тану және синтездеу үлгілерін құру үшін машиналық оқыту жүйелерінде пайдалануға болады. Алдыңғы жаңартумен салыстырғанда жинақтағы сөйлеу материалының көлемі 13.9%-ға - 18.2-дан 67 мың сөйлеу сағатына дейін өсті. Қолдау көрсетілетін тілдердің саны 87-ден XNUMX-ге дейін өсті.

Орыс тілі бойынша жиынтықта 2452 қатысушы және 193 сағат сөйлеу материалы (2136 қатысушы және 173 сағат), белорус тілі үшін - 6160 қатысушы және 987 сағат (3831 қатысушы және 356 сағат), украин тілі үшін - 684 қатысушы және 76 сағат (615 қатысушы және 66 сағат). Ағылшын тілінде материалдарды дайындауға 79 сағат расталған сөйлеуді (2886 мың қатысушы және 75 сағат) диктантпен 2637 мыңнан астам адам қатысты.

Еске сала кетейік, «Common Voice» жобасы дауыстар мен сөйлеу мәнерлерінің алуан түрлілігін ескеретін дауыс үлгілерінің дерекқорын жинақтау бойынша бірлескен жұмысты ұйымдастыруға бағытталған. Пайдаланушылар экранда көрсетілетін дауыстық сөйлемдерге немесе басқа пайдаланушылар қосқан деректердің сапасын бағалауға шақырылады. Адам сөйлеуінің типтік сөз тіркестерінің әртүрлі айтылу жазбалары бар жинақталған мәліметтер базасын машиналық оқыту жүйелерінде және ғылыми жобаларда шектеусіз пайдалануға болады. Vosk үздіксіз сөйлеуді тану кітапханасының авторының айтуынша, Common Voice жиынтығының кемшіліктері дауыс материалының біржақтылығы (20-30 жастағы ер адамдардың басым болуы және әйелдер дауысы бар материалдың болмауы) болып табылады. , балалар мен қарт адамдар), сөздікте вариацияның жоқтығы (бірдей сөз тіркестерінің қайталануы) және MP3 форматындағы бұрмаланған жазбалардың таралуы.

Сонымен қатар, NVIDIA NeMo 1.6 құралдар жинағының шығарылымын атап өтуге болады, ол сөзді тану жүйелерін, сөйлеу синтезін және табиғи тілді өңдеуді жасау үшін машиналық оқыту әдістерін ұсынады. NeMo Common Voice сөйлеу деректерін пайдалана отырып, NVIDIA дайындаған және әртүрлі тілдерді, екпіндерді және сөйлеу формаларын қамтитын PyTorch негізіне негізделген машиналық оқыту жүйелері үшін пайдалануға дайын оқытылған үлгілерді қамтиды. Модельдер дауысқа негізделген диалог жүйелерін, транскрипция платформаларын және автоматтандырылған байланыс орталықтарын әзірлейтін зерттеушілер үшін пайдалы болуы мүмкін. Мысалы, NVIDIA NeMo МТС пен Сбербанктің автоматтандырылған дауыстық қызметтерінде қолданылады. NeMo коды PyTorch көмегімен Python тілінде жазылған және Apache 2.0 лицензиясы бойынша таратылады.

Ақпарат көзі: opennet.ru

пікір қалдыру