Ua wehe ʻia ke code no ka ʻōnaehana ʻike a me ka unuhi ʻōlelo Whisper

ʻO ka papahana OpenAI, ka mea e hoʻomohala i nā papahana lehulehu ma ke kahua o ka naʻauao artificial, ua hoʻopuka i nā hanana e pili ana i ka ʻōnaehana ʻike ʻōlelo Whisper. Ua ʻōlelo ʻia no ka haʻi ʻōlelo ma ka ʻōlelo Pelekania e hāʻawi ka ʻōnaehana i nā pae o ka hilinaʻi a me ka pololei o ka ʻike ʻakomi kokoke i ka ʻike kanaka. Ua wehe ʻia ke code no ka hoʻokō kuhikuhi e pili ana i ka PyTorch framework a me kahi pūʻulu o nā hiʻohiʻona i aʻo mua ʻia, mākaukau no ka hoʻohana. Ua wehe ʻia ke code ma lalo o ka laikini MIT.

No ka hoʻomaʻamaʻa ʻana i ke kumu hoʻohālike, ua hoʻohana ʻia nā hola 680 tausani o ka ʻōlelo, i hōʻiliʻili ʻia mai nā hōʻiliʻili e uhi ana i nā ʻōlelo like ʻole a me nā kumuhana. Ma kahi o 1/3 o ka ʻikepili kamaʻilio e pili ana i ka hoʻomaʻamaʻa ʻana ma nā ʻōlelo ʻē aʻe ma waho o ka ʻōlelo Pelekania. Hoʻoponopono pololei ka ʻōnaehana i manaʻo ʻia i nā kūlana e like me ka ʻōlelo accented, ka walaʻau hope, a me ka hoʻohana ʻana i nā jargon ʻenehana. Ma waho aʻe o ka unuhi ʻana i ka haʻiʻōlelo i loko o ka kikokikona, hiki i ka ʻōnaehana ke unuhi i ka ʻōlelo mai kekahi ʻōlelo i ka ʻōlelo Pelekania a ʻike i ke ʻano o ka haʻiʻōlelo ma ke kahawai leo.

Hoʻokumu ʻia nā hiʻohiʻona i ʻelua mau hiʻohiʻona: kahi hiʻohiʻona no ka ʻōlelo Pelekania a me kahi hiʻohiʻona lehulehu, e kākoʻo pū ana i nā ʻōlelo Lūkini, Ukrainian a me Belarusian. I ka huli ʻana, ua māhele ʻia kēlā me kēia hōʻike i nā koho 5, ʻokoʻa i ka nui a me ka helu o nā ʻāpana i uhi ʻia i ke kumu hoʻohālike. ʻO ka nui o ka nui, ʻoi aku ka nui o ka pololei a me ka maikaʻi o ka ʻike, akā ʻoi aku ka kiʻekiʻe o nā koi no ka nui o ka hoʻomanaʻo wikiō GPU a me ka haʻahaʻa o ka hana. No ka laʻana, ʻo ka koho haʻahaʻa loa he 39 miliona mau ʻāpana a koi aku i ka 1 GB o ka hoʻomanaʻo wikiō, a ʻo ka mea kiʻekiʻe loa he 1550 miliona mau ʻāpana a koi i ka 10 GB o ka hoʻomanaʻo wikiō. ʻO ka koho liʻiliʻi he 32 manawa ʻoi aku ka wikiwiki ma mua o ka nui.

Ua wehe ʻia ke code no ka ʻōnaehana ʻike a me ka unuhi ʻōlelo Whisper

Hoʻohana ka ʻōnaehana i ka ʻōnaehana neural network Transformer, kahi encoder a me decoder e launa pū me kekahi. Hoʻokaʻawale ʻia ka leo i nā ʻāpana 30-kekona, i hoʻololi ʻia i loko o kahi log-Mel spectrogram a hoʻouna ʻia i ka encoder. Hoʻouna ʻia ka mea hoʻopuka o ka encoder i ka decoder, e wānana ana i kahi hōʻike kikokikona i hui pū ʻia me nā hōʻailona kūikawā e hiki ai, i loko o kekahi kumu hoʻohālike, e hoʻoponopono i nā pilikia e like me ka ʻike ʻana i ka ʻōlelo, ka helu ʻana i ka chronology o ka haʻi ʻana i nā huaʻōlelo, transcription o ka ʻōlelo ma nā ʻōlelo like ʻole, a me ka unuhi ʻana i ka ʻōlelo Pelekania.

Source: opennet.ru

Pākuʻi i ka manaʻo hoʻopuka