Mozilla Common Voice 7.0 atjauninājums

NVIDIA un Mozilla ir izlaiduši savu Common Voice datu kopu atjauninājumu, kas ietver 182 25 cilvēku runas paraugus, kas ir par 6% vairāk nekā pirms 0 mēnešiem. Dati tiek publicēti kā publiskais domēns (CCXNUMX). Ierosinātās kopas var izmantot mašīnmācīšanās sistēmās, lai izveidotu runas atpazīšanas un sintēzes modeļus.

Salīdzinot ar iepriekšējo atjauninājumu, runas materiāla apjoms krājumā ir pieaudzis no 9 līdz 13.9 tūkstošiem runas stundu. Atbalstīto valodu skaits ir palielinājies no 60 līdz 76, tostarp pirmo reizi tiek atbalstītas baltkrievu, kazahu, uzbeku, bulgāru, armēņu, azerbaidžāņu un baškīru valodas. Krievu valodas komplekts aptver 2136 dalībniekus un 173 stundas runas materiāla (bija 1412 dalībnieki un 111 stundas), bet ukraiņu valodai - 615 dalībniekus un 66 stundas (bija 459 dalībnieki un 30 stundas).

Materiālu sagatavošanā angļu valodā piedalījās vairāk nekā 75 tūkstoši cilvēku, diktējot 2637 stundas apstiprinātas runas (bija 66 tūkstoši dalībnieku un 1686 stundas). Interesanti, ka otrajā vietā uzkrāto datu apjoma ziņā ir Ruanda, par kuru savāktas 2260 stundas. Tam seko vācu (1040), katalāņu (920) un esperanto (840). Starp visdinamiskāk pieaugošajām balss datu apjomam ir taju valoda (20 reizes palielinājums bāzē, no 12 līdz 250 stundām), Luganda (no 8 līdz 80 stundām), esperanto (no 100 līdz 840 stundām) un tamilu valoda ( no 24 līdz 220 stundām).

Piedaloties Common Voice projektā, NVIDIA, pamatojoties uz savāktajiem datiem, sagatavoja gatavus apmācītus modeļus mašīnmācības sistēmām (atbalsta PyTorch). Modeļi tiek izplatīti kā daļa no bezmaksas un atvērtā NVIDIA NeMo rīku komplekta, kas, piemēram, jau tiek izmantots MTS un Sberbank automatizētajos balss pakalpojumos. Modeļi ir paredzēti izmantošanai runas atpazīšanas, runas sintēzes un dabiskās valodas apstrādes sistēmās, un tie var būt noderīgi pētniekiem, kas veido ar balsi aktivizētas dialogu sistēmas, transkripcijas platformas un automatizētus zvanu centrus. Atšķirībā no iepriekš pieejamajiem projektiem publicētie modeļi neaprobežojas tikai ar angļu valodas atpazīšanu un aptver dažādas valodas, akcentus un runas formas.

Atgādināsim, ka projekts Common Voice ir vērsts uz kopīgu darbu organizēšanu, lai uzkrātu balss rakstu datubāzi, kas ņem vērā balsu un runas stilu daudzveidību. Lietotāji tiek aicināti izrunāt ekrānā redzamās frāzes vai novērtēt citu lietotāju pievienoto datu kvalitāti. Uzkrāto datu bāzi ar dažādu cilvēka runas tipisku frāžu dažādu izrunu ierakstiem var bez ierobežojumiem izmantot mašīnmācības sistēmās un pētniecības projektos.

Pēc nepārtrauktās runas atpazīšanas bibliotēkas Vosk autora domām, Common Voice komplekta trūkumi ir balss materiāla vienpusība (20-30 gadus vecu vīriešu pārsvars un materiāla trūkums ar sieviešu balsīm. , bērni un veci cilvēki), vārdnīcas mainīguma trūkums (vienu un to pašu frāžu atkārtošana) un ierakstu izplatīšana kropļojošā MP3 formātā.

Avots: opennet.ru

Pievieno komentāru