Мозилла Цоммон Воице 7.0 ажурирање гласа

НВИДИА и Мозилла су објавиле ажурирање својих Цоммон Воице скупова података, који укључују 182 узорака говора људи, што је 25% више у односу на пре 6 месеци. Подаци се објављују као јавни домен (ЦЦ0). Предложени скупови се могу користити у системима машинског учења за изградњу модела препознавања и синтезе говора.

У поређењу са претходним ажурирањем, величина говорног материјала у збирци повећана је са 9 на 13.9 хиљада сати говора. Број подржаних језика порастао је са 60 на 76, укључујући по први пут подршку за белоруски, казахстански, узбекистански, бугарски, јерменски, азербејџански и башкирски језик. Комплет за руски језик обухвата 2136 учесника и 173 часа говорног материјала (учесника је било 1412 и 111 часова), а за украјински језик – 615 учесника и 66 часова (учесника је било 459 и 30 часова).

Више од 75 хиљада људи учествовало је у припреми материјала на енглеском језику, диктирајући 2637 сати потврђеног говора (учесника је било 66 хиљада и 1686 сати). Занимљиво, језик на другом месту по количини нагомиланих података је Руанда, за коју је прикупљено 2260 сати. Следе немачки (1040), каталонски (920) и есперанто (840). Међу најдинамичнијим повећањем величине гласовних података су тајландски језик (20 пута повећање у бази, са 12 на 250 сати), луганда (са 8 на 80 сати), есперанто (са 100 на 840 сати) и тамилски ( од 24 до 220 часова).часова).

Као део свог учешћа у пројекту Цоммон Воице, НВИДИА је на основу прикупљених података припремила готове обучене моделе за системе машинског учења (подржане од ПиТорцх-а). Модели се дистрибуирају као део бесплатног и отвореног НВИДИА НеМо комплета алата, који се, на пример, већ користи у аутоматизованим гласовним услугама МТС-а и Сбербанке. Модели су намењени за употребу у препознавању говора, синтези говора и системима за обраду природног језика, и могу бити корисни за истраживаче који граде системе за дијалог који се активирају гласом, платформе за транскрипцију и аутоматизоване центре за позиве. За разлику од раније доступних пројеката, објављени модели нису ограничени на препознавање енглеског језика и покривају различите језике, акценте и облике говора.

Подсетимо, пројекат Цоммон Воице има за циљ организовање заједничког рада на акумулацији базе података о гласовним обрасцима која узима у обзир разноликост гласова и стилова говора. Корисници су позвани да изговарају фразе приказане на екрану или процењују квалитет података које додају други корисници. Акумулирана база података са записима различитих изговора типичних фраза људског говора може се без ограничења користити у системима машинског учења и истраживачким пројектима.

Према аутору библиотеке Воск континуирано препознавање говора, недостаци скупа Цоммон Воице су једностраност гласовног материјала (превласт мушкараца 20-30 година и недостатак материјала са гласовима жена). , деца и стари), недостатак варијабилности у речнику (понављање истих фраза) и дистрибуција снимака у искривљеном МП3 формату.

Извор: опеннет.ру

Додај коментар