НВИДИА улаже 1.5 милиона долара у пројекат Мозилла Цоммон Воице

НВИДИА улаже 1.5 милиона долара у пројекат Мозилла Цоммон Воице. Интересовање за системе за препознавање говора потиче од предвиђања да ће у наредних десет година гласовна технологија постати један од главних начина на који људи комуницирају са уређајима у распону од рачунара и телефона до дигиталних асистената и киоска.

Перформансе гласовних система у великој мери зависе од обима и разноврсности гласовних података доступних за обуку модела машинског учења. Данашња гласовна технологија се првенствено фокусира на препознавање енглеског језика и не покрива широку лепезу језика, акцената и говорних образаца. Инвестиција ће помоћи да се убрза раст јавних гласовних података, ангажује више заједница и волонтера и прошири број особља на пројекту са пуним радним временом.

Подсетимо, пројекат Цоммон Воице има за циљ организовање заједничког рада на акумулацији базе података о гласовним обрасцима која узима у обзир разноликост гласова и стилова говора. Корисници су позвани да изговарају фразе приказане на екрану или процењују квалитет података које додају други корисници. Акумулирана база података са записима различитих изговора типичних фраза људског говора може се без ограничења користити у системима машинског учења и истраживачким пројектима.

Скуп Цоммон Воице тренутно укључује примере изговора од преко 164 људи. Сакупљено је око 9 хиљада сати гласовних података на 60 различитих језика. Комплет за руски језик обухвата 1412 учесника и 111 часова говорног материјала, а за украјински – 459 учесника и 30 часова. Поређења ради, више од 66 хиљада људи учествовало је у припреми материјала на енглеском језику, диктирајући 1686 сати провереног говора. Предложени скупови се могу користити у системима машинског учења за изградњу модела препознавања и синтезе говора. Подаци се објављују као јавни домен (ЦЦ0).

Према аутору библиотеке Воск континуирано препознавање говора, недостаци скупа Цоммон Воице су једностраност гласовног материјала (превласт мушкараца 20-30 година и недостатак материјала са гласовима жена). , деца и стари), недостатак варијабилности у речнику (понављање истих фраза) и дистрибуција снимака у искривљеном МП3 формату.

Извор: опеннет.ру

Додај коментар