Mozilla шамамен 200 000 адамның айтылу үлгілерін қамтитын Common Voice деректер жиынының жаңартуын шығарды. Деректер қоғамдық доменде (CC0) жарияланған. Ұсынылған деректер жинақтарын сөзді тану және синтездеу үлгілерін құру үшін машиналық оқыту жүйелерінде пайдалануға болады.
Алдыңғы жаңартумен салыстырғанда жинақтағы сөйлеу деректерінің көлемі 10%-ға — 18.2-ден 20.2 мың сөйлеу сағатына дейін өсті. Қолдау көрсетілетін тілдердің саны 87-ден 93-ке дейін өсті. 27 тіл үшін 100 сағаттан астам сөйлеу деректері және 9 тіл үшін 500 сағаттан астам сөйлеу деректері жинақталды. Біз сондай-ақ 9 тілде кем дегенде 45% әйелдер сөйлейтін халық санына қол жеткіздік.
Ағылшын тіліндегі материалдарды дайындауға 81 000-нан астам адам қатысты, олар 2 953 сағат сөйлеуді (79 000 қатысушы мен 2 886 сағатпен салыстырғанда) диктант етті. Беларусь тіліндегі жинаққа 6 326 қатысушы және 1 054 сағат сөйлеу материалы (6 160 қатысушы және 987 сағатпен салыстырғанда), орыс тілі — 2 585 қатысушы және 201 сағат (2452 қатысушы және 193 сағатпен салыстырғанда), өзбек тілі — 1 503 қатысушы және 231 сағат (5 қатысушы және 32 сағат), 32 сағат және 5 адаммен салыстырғанда Украин — 696 қатысушы және 79 сағат (684 қатысушы және 76 сағатпен салыстырғанда).
«Жалпы дауыс» жобасы дауыстар мен сөйлеу мәнерлерінің әртүрлілігін ескеретін дауыс үлгілерінің дерекқорын жинақтау бойынша бірлескен жұмысты ұйымдастыруға бағытталған. Пайдаланушылар экранда көрсетілетін дауыстық сөйлемдерге немесе басқа пайдаланушылар қосқан деректердің сапасын бағалауға шақырылады. Адам сөйлеуінің типтік сөз тіркестерінің әртүрлі айтылу жазбалары бар жинақталған мәліметтер базасын машиналық оқыту жүйелерінде және ғылыми жобаларда шектеусіз пайдалануға болады.
Ақпарат көзі: opennet.ru
