Tha NVIDIA a’ tasgadh $1.5 millean ann am pròiseact Mozilla Common Voice

Tha NVIDIA a’ tasgadh $1.5 millean ann am pròiseact Mozilla Common Voice. Tha ùidh ann an siostaman aithneachaidh cainnt a’ tighinn bhon ro-innse gum bi teicneòlas guth thairis air na deich bliadhna a tha romhainn mar aon de na prìomh dhòighean anns am bi daoine ag eadar-obrachadh le innealan bho choimpiutairean is fònaichean gu luchd-cuideachaidh didseatach agus bothain.

Tha coileanadh shiostaman guth gu mòr an urra ri meud agus measgachadh an dàta guth a tha ri fhaighinn airson modalan ionnsachaidh innealan trèanaidh. Tha teicneòlas guth an latha an-diugh gu sònraichte ag amas air aithneachadh Beurla agus chan eil e a’ còmhdach an raon fharsaing de chànanan, sràcan, agus pàtrain cainnt. Cuidichidh an tasgadh le bhith a’ luathachadh fàs dàta guth poblach, a’ dol an sàs ann am barrachd choimhearsnachdan agus saor-thoilich, agus a’ leudachadh an àireamh de luchd-obrach pròiseict làn-ùine.

Cuimhnichidh sinn gu bheil am pròiseact Common Voice ag amas air co-obrachadh a chuir air dòigh gus stòr-dàta de phàtranan gutha a chruinneachadh a bheir aire do iomadachd ghuthan agus stoidhlichean cainnt. Thathas a’ toirt cuireadh do luchd-cleachdaidh abairtean guth a thaisbeanadh air an sgrion no measadh càileachd an dàta a chuir luchd-cleachdaidh eile ris. Faodar an stòr-dàta cruinnichte le clàran de dhiofar fhuaimneachadh de abairtean àbhaisteach de chainnt daonna a chleachdadh gun chuingealachaidhean ann an siostaman ionnsachaidh innealan agus ann am pròiseactan rannsachaidh.

Tha an seata Guth Coitcheann an-dràsta a’ toirt a-steach eisimpleirean fuaimneachaidh bho chòrr air 164 neach. Chaidh timcheall air 9 mìle uair de dhàta guth a chruinneachadh ann an 60 cànan eadar-dhealaichte. Tha an seata airson cànan na Ruis a 'còmhdach 1412 com-pàirtichean agus 111 uair a thìde de stuth cainnt, agus airson cànan na h-Ucrain - 459 com-pàirtiche agus 30 uair a thìde. Airson coimeas a dhèanamh, ghabh còrr air 66 mìle neach pàirt ann an ullachadh stuthan sa Bheurla, ag òrdachadh 1686 uair de òraid dearbhte. Faodar na seataichean a thathar a’ moladh a chleachdadh ann an siostaman ionnsachaidh innealan gus modalan aithneachadh cainnt agus synthesis a thogail. Tha an dàta air fhoillseachadh mar raon poblach (CC0).

A rèir ùghdar leabharlann aithne cainnt leantainneach Vosk, is e na h-eas-bhuannachdan a tha ann an seata Guth Coitcheann an stuth guth aon-taobhach (mar as trice fireannaich 20-30 bliadhna a dh'aois, agus dìth stuth le guthan boireannaich. , clann agus seann daoine), dìth caochlaidheachd anns an fhaclair (ath-aithris de na h-aon abairtean) agus sgaoileadh chlàran ann an cruth MP3 a tha a’ gluasad air falbh.

Source: fosgailtenet.ru

Cuir beachd ann