„Amazon“ paskelbė duomenų rinkinį, skirtą kalbos supratimui 51 kalba

„Amazon“ pagal CC BY 4.0 licenciją paskelbė „MASSIVE“ (daugiakalbis Amazon SLURP, skirtas lizdų užpildymui, ketinimų klasifikacijai ir virtualiam asistento įvertinimui) duomenų rinkinį, mašininio mokymosi sistemų modelius ir įrankius, skirtus jūsų modelių mokymui, kuriuos galima naudoti suprasti informaciją apie natūralią kalbą (NLU, Natural Language Understanding). Rinkinyje yra daugiau nei milijonas anotuotų ir įslaptintų teksto posakių, parengtų 51 kalbai.

SLURP kolekcija, iš pradžių prieinama anglų kalba, buvo naudojama kaip nuoroda kuriant MASSIVE rinkinį, kuris buvo lokalizuotas į 50 kitų kalbų naudojant profesionalius vertėjus. Alexa natūralios kalbos supratimo (NLU) technologija pirmiausia paverčia kalbą į tekstą, tada tekstui pritaiko kelis NLU modelius, kurie analizuoja raktinių žodžių buvimą, kad nustatytų vartotojo klausimo esmę.

Vienas iš rinkinio kūrimo ir publikavimo tikslų – pritaikyti balso asistentus, kad jie vienu metu apdorotų informaciją keliomis kalbomis, taip pat paskatinti trečiųjų šalių kūrėjus kurti programas ir paslaugas, praplečiančias balso asistentų galimybes. Siekdama atkreipti kūrėjų dėmesį, „Amazon“ paskelbė konkursą sukurti geriausią bendrąjį modelį, naudodama paskelbtą duomenų rinkinį.

Šiuo metu balso padėjėjai palaiko tik kelias kalbas ir naudoja mašininio mokymosi modelius, susietus su konkrečia kalba. MASSIVE projektu siekiama pašalinti šį trūkumą sukuriant universalius modelius ir mašininio mokymosi sistemas, galinčias analizuoti ir apdoroti informaciją skirtingomis kalbomis.

Šaltinis: opennet.ru

Добавить комментарий