آمازون مجموعه داده ای را برای درک گفتار به 51 زبان منتشر کرد

آمازون تحت مجوز CC BY 4.0 مجموعه داده "MASSIVE" (SLURP چند زبانه آمازون برای پر کردن شکاف، طبقه بندی هدف و ارزیابی دستیار مجازی)، مدل هایی برای سیستم های یادگیری ماشین و ابزارهایی برای آموزش مدل های خود منتشر کرده است که می توان از آنها استفاده کرد. درک اطلاعات در مورد زبان طبیعی (NLU، درک زبان طبیعی). این مجموعه شامل بیش از یک میلیون عبارت متنی مشروح و طبقه بندی شده است که برای 51 زبان آماده شده است.

مجموعه SLURP که در اصل برای انگلیسی در دسترس بود، به عنوان مرجعی برای ساخت مجموعه MASSIVE استفاده شد که با استفاده از مترجمان حرفه ای به 50 زبان دیگر ترجمه شد. فناوری درک زبان طبیعی الکسا (NLU) ابتدا گفتار را به متن تبدیل می‌کند، سپس چندین مدل NLU را در متن اعمال می‌کند که حضور کلمات کلیدی را تجزیه و تحلیل می‌کند تا ماهیت سؤال کاربر را تعیین کند.

یکی از اهداف ایجاد و انتشار مجموعه، تطبیق دستیارهای صوتی برای پردازش اطلاعات به چندین زبان به طور همزمان و همچنین تشویق توسعه دهندگان شخص ثالث برای ایجاد برنامه ها و خدماتی است که قابلیت های دستیار صوتی را گسترش می دهد. برای جلب توجه توسعه دهندگان، آمازون مسابقه ای را برای ایجاد بهترین مدل عمومی با استفاده از مجموعه داده منتشر شده راه اندازی کرد.

در حال حاضر، دستیارهای صوتی تنها از چند زبان پشتیبانی می‌کنند و از مدل‌های یادگیری ماشینی مرتبط با یک زبان خاص استفاده می‌کنند. پروژه MASSIVE با ایجاد مدل‌های جهانی و سیستم‌های یادگیری ماشینی که قادر به تجزیه و پردازش اطلاعات به زبان‌های مختلف هستند، این نقص را برطرف می‌کند.

منبع: opennet.ru

اضافه کردن نظر