Mozilla Common Voice 8.0 atjauninājums

Mozilla ir izlaidusi atjauninājumu savām Common Voice datu kopām, kas ietver izrunas paraugus no gandrīz 200 0 cilvēku. Dati tiek publicēti kā publiskais domēns (CC30). Ierosinātās kopas var izmantot mašīnmācīšanās sistēmās, lai izveidotu runas atpazīšanas un sintēzes modeļus. Salīdzinot ar iepriekšējo atjauninājumu, runas materiāla apjoms krājumā palielinājās par 13.9% - no 18.2 līdz 67 tūkstošiem runas stundu. Atbalstīto valodu skaits ir palielinājies no 87 līdz XNUMX.

Krievu valodas komplekts aptver 2452 dalībniekus un 193 stundas runas materiāla (bija 2136 dalībnieki un 173 stundas), baltkrievu valodai - 6160 dalībnieki un 987 stundas (bija 3831 dalībnieks un 356 stundas), ukraiņu valodai - 684 dalībnieki un 76 stundas (bija 615 dalībnieki un 66 stundas). Materiālu sagatavošanā angļu valodā piedalījās vairāk nekā 79 tūkstoši cilvēku, diktējot 2886 stundas apstiprinātas runas (bija 75 tūkstoši dalībnieku un 2637 stundas).

Atgādināsim, ka projekts Common Voice ir vērsts uz kopīgu darbu organizēšanu, lai uzkrātu balss rakstu datubāzi, kas ņem vērā balsu un runas stilu daudzveidību. Lietotāji tiek aicināti izrunāt ekrānā redzamās frāzes vai novērtēt citu lietotāju pievienoto datu kvalitāti. Uzkrāto datu bāzi ar dažādu cilvēka runas tipisku frāžu dažādu izrunu ierakstiem var bez ierobežojumiem izmantot mašīnmācības sistēmās un pētniecības projektos. Pēc nepārtrauktās runas atpazīšanas bibliotēkas Vosk autora domām, Common Voice komplekta trūkumi ir balss materiāla vienpusība (20-30 gadus vecu vīriešu pārsvars un materiāla trūkums ar sieviešu balsīm. , bērni un veci cilvēki), vārdnīcas mainīguma trūkums (vienu un to pašu frāžu atkārtošana) un ierakstu izplatīšana kropļojošā MP3 formātā.

Turklāt mēs varam atzīmēt NVIDIA NeMo 1.6 rīkkopas izlaišanu, kas nodrošina mašīnmācīšanās metodes runas atpazīšanas sistēmu izveidei, runas sintēzei un dabiskās valodas apstrādei. NeMo ietver lietošanai gatavus apmācītus modeļus mašīnmācības sistēmām, kuru pamatā ir PyTorch ietvars, ko sagatavojusi NVIDIA, izmantojot Common Voice runas datus un kas aptver dažādas valodas, akcentus un runas formas. Modeļi var būt noderīgi pētniekiem, kas izstrādā balss dialogu sistēmas, transkripcijas platformas un automatizētus zvanu centrus. Piemēram, NVIDIA NeMo tiek izmantots MTS un Sberbank automatizētajos balss pakalpojumos. NeMo kods ir rakstīts Python, izmantojot PyTorch, un tiek izplatīts saskaņā ar Apache 2.0 licenci.

Avots: opennet.ru

Pievieno komentāru