Amazon-ը հրապարակել է 51 լեզուներով խոսքը հասկանալու տվյալների բազա

Amazon-ը CC BY 4.0 լիցենզիայի ներքո հրապարակել է «MASSIVE» (Multilingual Amazon SLURP for Slot Filling, Intent Classification and Virtual-assistant Evaluation) տվյալների բազան, մեքենայական ուսուցման համակարգերի մոդելները և ձեր սեփական մոդելները վերապատրաստելու գործիքները, որոնք կարող են օգտագործվել հասկանալ բնական լեզվի մասին տեղեկատվությունը (NLU, Natural Language Understanding): Հավաքածուն ներառում է ավելի քան մեկ միլիոն ծանոթագրված և դասակարգված տեքստային արտահայտություններ, որոնք պատրաստված են 51 լեզուների համար:

SLURP հավաքածուն, որն ի սկզբանե հասանելի էր անգլերենի համար, օգտագործվել է որպես տեղեկանք MASSIVE հավաքածուի ստեղծման համար, որը տեղայնացվել է 50 այլ լեզուներով՝ օգտագործելով պրոֆեսիոնալ թարգմանիչներ: Alexa-ի բնական լեզվի ըմբռնման (NLU) տեխնոլոգիան նախ խոսքը փոխակերպում է տեքստի, այնուհետև տեքստի վրա կիրառում է բազմաթիվ NLU մոդելներ, որոնք վերլուծում են հիմնաբառերի առկայությունը՝ որոշելու օգտատիրոջ հարցի էությունը:

Հավաքածուի ստեղծման և հրապարակման նպատակներից է ձայնային օգնականների հարմարեցումը մի քանի լեզուներով տեղեկատվությունը մշակելու համար, ինչպես նաև խրախուսել երրորդ կողմի մշակողներին ստեղծել հավելվածներ և ծառայություններ, որոնք ընդլայնում են ձայնային օգնականների հնարավորությունները: Մշակողների ուշադրությունը գրավելու համար Amazon-ը մրցույթ է սկսել՝ ստեղծելու լավագույն ընդհանուր մոդելը՝ օգտագործելով հրապարակված տվյալների բազա:

Ներկայումս ձայնային օգնականներն աջակցում են միայն մի քանի լեզուների և օգտագործում են մեքենայական ուսուցման մոդելներ՝ կապված որոշակի լեզվի հետ: MASSIVE նախագիծը նպատակ ունի վերացնել այս թերությունը՝ ստեղծելով ունիվերսալ մոդելներ և մեքենայական ուսուցման համակարգեր, որոնք կարող են վերլուծել և մշակել տեղեկատվություն տարբեր լեզուներով:

Source: opennet.ru

Добавить комментарий