Nag-publish ang Amazon ng isang dataset para sa pag-unawa sa pagsasalita sa 51 mga wika

Inilathala ng Amazon sa ilalim ng lisensya ng CC BY 4.0 ang dataset na "MASSIVE" (Multilingual Amazon SLURP para sa Slot Filling, Intent Classification, at Virtual-assistant Evaluation), mga modelo para sa mga machine learning system, at mga tool para sa pagsasanay ng iyong sariling mga modelo na magagamit upang maunawaan ang impormasyon sa natural na wika (NLU, Natural Language Understanding). Kasama sa set ang higit sa isang milyong naka-annotate at classified na tekstong pagbigkas na inihanda para sa 51 mga wika.

Ang koleksyon ng SLURP, na orihinal na magagamit para sa Ingles, ay ginamit bilang isang sanggunian para sa pagbuo ng MASSIVE set, na naisalokal sa 50 iba pang mga wika gamit ang mga propesyonal na tagasalin. Ang natural na pag-unawa sa wika (NLU) na teknolohiya ng Alexa ay unang nagko-convert ng pagsasalita sa teksto, pagkatapos ay naglalapat ng maraming modelo ng NLU sa teksto na nagsusuri sa pagkakaroon ng mga keyword upang matukoy ang kakanyahan ng tanong ng user.

Ang isa sa mga layunin ng paglikha at pag-publish ng set ay upang iakma ang mga voice assistant upang iproseso ang impormasyon sa ilang mga wika nang sabay-sabay, gayundin upang hikayatin ang mga third-party na developer na lumikha ng mga application at serbisyo na nagpapalawak ng mga kakayahan ng mga voice assistant. Upang maakit ang atensyon ng mga developer, naglunsad ang Amazon ng isang kumpetisyon upang lumikha ng pinakamahusay na generic na modelo gamit ang isang nai-publish na dataset.

Sa kasalukuyan, sinusuportahan lamang ng mga voice assistant ang ilang wika at gumagamit ng mga modelo ng machine learning na nakatali sa isang partikular na wika. Ang MASSIVE na proyekto ay naglalayong alisin ang pagkukulang na ito sa pamamagitan ng paglikha ng mga unibersal na modelo at machine learning system na may kakayahang mag-parse at magproseso ng impormasyon sa iba't ibang wika.

Pinagmulan: opennet.ru

Magdagdag ng komento