Amazon ṣe atẹjade dataset kan fun oye ọrọ ni awọn ede 51

Amazon ti ṣe atẹjade labẹ iwe-aṣẹ CC BY 4.0 “MASSIVE” (Amazon Multilingual SLURP for Slot Filling, Intent Classification, and Virtual-Assistant Evaluation) dataset, awọn awoṣe fun awọn eto ikẹkọ ẹrọ, ati awọn irinṣẹ fun ikẹkọ awọn awoṣe tirẹ ti o le ṣee lo lati ye alaye lori ede adayeba (NLU, Agbọye Ede Adayeba). Iṣeto naa pẹlu diẹ sii ju miliọnu atọka ati awọn asọye ọrọ ti a ti pese sile fun awọn ede 51.

Akojọpọ SLURP, ti o wa ni akọkọ fun Gẹẹsi, ni a lo bi itọkasi fun kikọ eto MASSIVE, eyiti o jẹ agbegbe si awọn ede 50 miiran ni lilo awọn atumọ ọjọgbọn. Imọ-ẹrọ oye ede adayeba ti Alexa (NLU) akọkọ yi ọrọ pada si ọrọ, lẹhinna kan awọn awoṣe NLU pupọ si ọrọ ti o ṣe itupalẹ wiwa awọn koko-ọrọ lati pinnu idi pataki ti ibeere olumulo.

Ọkan ninu awọn ibi-afẹde ti ṣiṣẹda ati titẹjade ṣeto ni lati mu awọn oluranlọwọ ohun mu lati ṣe ilana alaye ni awọn ede pupọ ni ẹẹkan, ati lati ṣe iwuri fun awọn olupolowo ẹni-kẹta lati ṣẹda awọn ohun elo ati awọn iṣẹ ti o faagun awọn agbara ti awọn oluranlọwọ ohun. Lati ṣe ifamọra akiyesi awọn olupilẹṣẹ, Amazon ṣe ifilọlẹ idije kan lati ṣẹda awoṣe jeneriki ti o dara julọ nipa lilo data ti a tẹjade.

Lọwọlọwọ, awọn oluranlọwọ ohun ṣe atilẹyin awọn ede diẹ nikan ati lo awọn awoṣe ikẹkọ ẹrọ ti a so si ede kan pato. Ise agbese MASSIVE ni ifọkansi lati yọkuro aipe yii nipa ṣiṣẹda awọn awoṣe agbaye ati awọn eto ikẹkọ ẹrọ ti o lagbara lati ṣe itupalẹ ati sisẹ alaye ni awọn ede oriṣiriṣi.

orisun: opennet.ru

Fi ọrọìwòye kun