Мозилла Цоммон Воице 9.0 ажурирање гласа

Мозилла је објавила ажурирање својих скупова података Цоммон Воице, који укључују узорке изговора од скоро 200 људи. Подаци се објављују као јавни домен (ЦЦ0). Предложени скупови се могу користити у системима машинског учења за изградњу модела препознавања и синтезе говора.

У поређењу са претходним ажурирањем, обим говорног материјала у колекцији је повећан за 10% - са 18.2 на 20.2 хиљаде сати говора. Број подржаних језика је повећан са 87 на 93. За 27 језика прикупљено је више од 100 сати говорних података, а за 9 - више од 500 сати говорних података. За 9 језика такође је било могуће постићи удео женског говора од најмање 45%.

Више од 81 хиљаде људи учествовало је у припреми материјала на енглеском језику, диктирајући 2953 сата говора (учесника је било 79 хиљада и 2886 сати). Комплет за белоруски језик обухвата 6326 учесника и 1054 часа говорног материјала (било је 6160 учесника и 987 часова), руски – 2585 учесника и 201 час (учесника је било 2452 и 193 часа), узбечки језик – 1503 учесника и 231 час ( било је 1355 учесника и 227 часова), украјински језик – 696 учесника и 79 часова (учесника је било 684 и 76 часова).

Пројекат Цоммон Воице има за циљ да организује заједнички рад на акумулацији базе података о гласовним обрасцима која узима у обзир разноликост гласова и стилова говора. Корисници су позвани да изговарају фразе приказане на екрану или процењују квалитет података које додају други корисници. Акумулирана база података са записима различитих изговора типичних фраза људског говора може се без ограничења користити у системима машинског учења и истраживачким пројектима.

Извор: опеннет.ру

Додај коментар