Mozilla Common Voice 7.0 жаңартуы

NVIDIA және Mozilla 182 25 адамның сөйлеу үлгілерін қамтитын Common Voice деректер жиынының жаңартуын шығарды, бұл 6 ай бұрынғыдан 0% жоғары. Деректер қоғамдық домен (CCXNUMX) ретінде жарияланады. Ұсынылған жинақтарды сөзді тану және синтездеу үлгілерін құру үшін машиналық оқыту жүйелерінде пайдалануға болады.

Алдыңғы жаңартумен салыстырғанда жинақтағы сөйлеу материалының көлемі 9-дан 13.9 мың сөйлеу сағатына дейін ұлғайды. Қолдау көрсетілетін тілдердің саны 60-тан 76-ға дейін өсті, оның ішінде белорус, қазақ, өзбек, болгар, армян, әзірбайжан және башқұрт тілдері алғаш рет қолдау тапты. Орыс тілі бойынша жиынтықта 2136 қатысушы және 173 сағат сөйлеу материалы (1412 қатысушы және 111 сағат), ал украин тілі бойынша - 615 қатысушы және 66 сағат (459 қатысушы және 30 сағат болды).

Ағылшын тілінде материалдар дайындауға 75 сағат расталған сөйлеуге 2637 мыңнан астам адам қатысты (66 мың қатысушы және 1686 сағат). Бір қызығы, жинақталған деректер көлемі бойынша екінші орында тұрған тіл – Руанда, ол үшін 2260 сағат жиналған. Одан кейін неміс (1040), каталон (920) және эсперанто (840) келеді. Дауыстық деректер көлемінің ең динамикалық ұлғаюы арасында тай тілі (базаның 20 есе ұлғаюы, 12-ден 250 сағатқа дейін), луганда (8-ден 80 сағатқа дейін), эсперанто (100-ден 840 сағатқа дейін) және тамил ( 24-тен 220 сағатқа дейін).

Common Voice жобасына қатысу шеңберінде NVIDIA жиналған деректер негізінде машиналық оқыту жүйелеріне (PyTorch қолдауымен) дайын оқытылған үлгілерді дайындады. Модельдер, мысалы, МТС пен Сбербанктің автоматтандырылған дауыс қызметтерінде қолданылған тегін және ашық NVIDIA NeMo құралдар жинағының бөлігі ретінде таратылады. Модельдер сөзді тану, сөйлеу синтезі және табиғи тілді өңдеу жүйелерінде пайдалануға арналған және дауыспен белсендірілген диалог жүйелерін, транскрипция платформаларын және автоматтандырылған байланыс орталықтарын құрастыратын зерттеушілер үшін пайдалы болуы мүмкін. Бұрын қол жетімді жобалардан айырмашылығы, жарияланған үлгілер ағылшын тілін танумен шектелмейді және әртүрлі тілдерді, екпіндерді және сөйлеу формаларын қамтиды.

Естеріңізге сала кетейік, «Common Voice» жобасы дауыстар мен сөйлеу мәнерлерінің алуан түрлілігін ескеретін дауыс үлгілерінің дерекқорын жинақтау бойынша бірлескен жұмысты ұйымдастыруға бағытталған. Пайдаланушылар экранда көрсетілетін дауыстық сөйлемдерге немесе басқа пайдаланушылар қосқан деректердің сапасын бағалауға шақырылады. Адам сөйлеуінің типтік сөз тіркестерінің әртүрлі айтылу жазбалары бар жинақталған мәліметтер базасын машиналық оқыту жүйелерінде және ғылыми жобаларда шектеусіз пайдалануға болады.

Vosk үздіксіз сөйлеуді тану кітапханасының авторының айтуынша, Common Voice жиынтығының кемшіліктері дауыс материалының біржақтылығы (20-30 жастағы ер адамдардың басым болуы және әйелдер дауысы бар материалдың болмауы) болып табылады. , балалар мен қарт адамдар), сөздікте вариацияның жоқтығы (бірдей сөз тіркестерінің қайталануы) және MP3 форматындағы бұрмаланған жазбалардың таралуы.

Ақпарат көзі: opennet.ru

пікір қалдыру