آمازون تحت مجوز CC BY 4.0 مجموعه داده "MASSIVE" (SLURP چند زبانه آمازون برای پر کردن شکاف، طبقه بندی هدف و ارزیابی دستیار مجازی)، مدل هایی برای سیستم های یادگیری ماشین و ابزارهایی برای آموزش مدل های خود منتشر کرده است که می توان از آنها استفاده کرد. درک اطلاعات در مورد زبان طبیعی (NLU، درک زبان طبیعی). این مجموعه شامل بیش از یک میلیون عبارت متنی مشروح و طبقه بندی شده است که برای 51 زبان آماده شده است.
مجموعه SLURP که در اصل برای انگلیسی در دسترس بود، به عنوان مرجعی برای ساخت مجموعه MASSIVE استفاده شد که با استفاده از مترجمان حرفه ای به 50 زبان دیگر ترجمه شد. فناوری درک زبان طبیعی الکسا (NLU) ابتدا گفتار را به متن تبدیل میکند، سپس چندین مدل NLU را در متن اعمال میکند که حضور کلمات کلیدی را تجزیه و تحلیل میکند تا ماهیت سؤال کاربر را تعیین کند.
یکی از اهداف ایجاد و انتشار مجموعه، تطبیق دستیارهای صوتی برای پردازش اطلاعات به چندین زبان به طور همزمان و همچنین تشویق توسعه دهندگان شخص ثالث برای ایجاد برنامه ها و خدماتی است که قابلیت های دستیار صوتی را گسترش می دهد. برای جلب توجه توسعه دهندگان، آمازون مسابقه ای را برای ایجاد بهترین مدل عمومی با استفاده از مجموعه داده منتشر شده راه اندازی کرد.
در حال حاضر، دستیارهای صوتی تنها از چند زبان پشتیبانی میکنند و از مدلهای یادگیری ماشینی مرتبط با یک زبان خاص استفاده میکنند. پروژه MASSIVE با ایجاد مدلهای جهانی و سیستمهای یادگیری ماشینی که قادر به تجزیه و پردازش اطلاعات به زبانهای مختلف هستند، این نقص را برطرف میکند.
منبع: opennet.ru