NVIDIA інвесціруе 1.5 млн долараў у праект Mozilla Common Voice

Кампанія NVIDIA інвесціруе 1.5 млн долараў у праект Mozilla Common Voice. Цікавасць да сістэм распазнання прамовы звязаны з прагнозам, што ў наступныя дзесяць гадоў галасавыя тэхналогіі стануць адным з асноўных спосабаў узаемадзеяння людзей з рознымі прыладамі, ад кампутараў і тэлефонаў, да лічбавых асістэнтаў і кіёскаў для продажу тавараў.

Якасць працы галасавых сістэм моцна залежыць ад аб'ёму і разнастайнасці галасавых даных, даступных для трэніроўкі мадэлей машыннага навучання. Сённяшнія галасавыя тэхналогіі ў асноўным сканцэнтраваны на распазнанні англійскай мовы і не ахопліваюць вялікую колькасць моў, акцэнтаў і мадэляў маўлення. Інвестыцыі дапамогуць паскорыць нарошчванне аб'ёму агульнадаступных галасавых дадзеных, прыцягнуць да працы больш суполак і валанцёраў, а таксама пашырыць колькасць супрацоўнікаў, якія займаюцца праектам у асноўны працоўны час.

Нагадаем, што праект Common Voice накіраваны на арганізацыю сумеснай працы па назапашванні базы галасавых шаблонаў, якая ўлічвае ўсю разнастайнасць галасоў і манер гаворкі. Карыстачам прапануецца агучыць фразы, якія выводзяцца на экран, або ацаніць якасць дадзеных, дададзеных іншымі карыстальнікамі. Назапашаную базу дадзеных з запісамі рознага вымаўлення тыпавых фраз чалавечай гаворкі без абмежаванняў можна выкарыстоўваць у сістэмах машыннага навучання і ў даследчых праектах.

У цяперашні час набор Common Voice уключае прыклады вымаўлення больш за 164 тысяч людзей. Назапашана каля 9 тысяч гадзін галасавых звестак на 60 розных мовах. Набор для рускай мовы ахоплівае 1412 удзельнікаў і 111 гадзін маўленчага матэрыялу, а для ўкраінскай мовы - 459 удзельнікаў і 30 гадзін. Для параўнання ў падрыхтоўцы матэрыялаў на англійскай мове прынялі ўдзел больш за 66 тысяч чалавек, якія дыктавалі 1686 гадзін пацверджанай прамовы. Прапанаваныя наборы можна выкарыстоўваць у сістэмах машыннага навучання для пабудовы мадэляў распазнання і сінтэзу маўлення. Дадзеныя апублікаваны як грамадскі здабытак (CC0).

Па меркаванні аўтара бібліятэкі распазнання злітнай гаворкі Vosk недахопамі набору Common Voice з'яўляецца аднабокасць галасавога матэрыялу (перавага людзей мужчынскай падлогі 20-30 гадоў, і недахоп матэрыялу з голасам жанчын, дзяцей і пажылых людзей), адсутнасць варыятыўнасці слоўніка (паўтарэнне адных і тых жа фраз) і распаўсюджванне запісаў ва ўносіць скажэнні фармаце MP3.

Крыніца: opennet.ru

Дадаць каментар