Мозилла је ажурирала своје скупове података Цоммон Воице како би укључила узорке изговора од преко 200 људи. Подаци се објављују као јавни домен (ЦЦ0). Предложени скупови се могу користити у системима машинског учења за изградњу модела препознавања и синтезе говора.
У поређењу са претходним ажурирањем, обим говорног материјала у збирци порастао је са 23.8 на 25.8 хиљада сати говора. Више од 88 хиљада људи учествовало је у припреми материјала на енглеском језику, диктирајући 3161 сат говора (учесника је било 84 хиљаде и 3098 сати). Комплет за белоруски језик обухвата 7903 учесника и 1419 часова говорног материјала (учесника је било 6965 и 1217 часова), руски – 2815 учесника и 229 часова (учесника 2731 и 215 часова), узбечки језик – 2092 учесника и 262 часа ( било је 2025 учесника и 258 часова), украјински језик – 780 учесника и 87 часова (учесника је било 759 и 87 часова).
Пројекат Цоммон Воице има за циљ да организује заједнички рад на акумулацији базе података о гласовним обрасцима која узима у обзир разноликост гласова и стилова говора. Корисници су позвани да изговарају фразе приказане на екрану или процењују квалитет података које додају други корисници. Акумулирана база података са записима различитих изговора типичних фраза људског говора може се без ограничења користити у системима машинског учења и истраживачким пројектима.
Извор: опеннет.ру
