ایمیزون نے 51 زبانوں میں تقریر کو سمجھنے کے لیے ڈیٹا سیٹ شائع کیا۔

ایمیزون نے CC BY 4.0 لائسنس کے تحت "MASSIVE" (ملٹی لسانی ایمیزون SLURP برائے سلاٹ فلنگ، انٹینٹ کلاسیفیکیشن، اور ورچوئل اسسٹنٹ ایویلیوایشن) ڈیٹاسیٹ، مشین لرننگ سسٹمز کے ماڈلز، اور آپ کے اپنے ماڈلز کی تربیت کے لیے ٹولز شائع کیے ہیں جن کو استعمال کیا جا سکتا ہے۔ قدرتی زبان کے بارے میں معلومات کو سمجھنا (NLU، Natural Language Understanding)۔ اس سیٹ میں 51 زبانوں کے لیے تیار کردہ دس لاکھ سے زیادہ تشریح شدہ اور درجہ بند عبارتیں شامل ہیں۔

SLURP مجموعہ، جو اصل میں انگریزی کے لیے دستیاب ہے، کو MASSIVE سیٹ بنانے کے لیے ایک حوالہ کے طور پر استعمال کیا گیا تھا، جسے پیشہ ور مترجمین کا استعمال کرتے ہوئے 50 دیگر زبانوں میں مقامی کیا گیا تھا۔ Alexa کی قدرتی زبان کی سمجھ بوجھ (NLU) ٹیکنالوجی پہلے تقریر کو متن میں تبدیل کرتی ہے، پھر متن پر متعدد NLU ماڈلز کا اطلاق کرتی ہے جو صارف کے سوال کے جوہر کا تعین کرنے کے لیے مطلوبہ الفاظ کی موجودگی کا تجزیہ کرتی ہے۔

سیٹ بنانے اور شائع کرنے کا ایک مقصد صوتی معاونین کو ایک ساتھ کئی زبانوں میں معلومات پر کارروائی کرنے کے لیے ڈھالنا ہے، ساتھ ہی ساتھ فریق ثالث کے ڈویلپرز کو ایسی ایپلی کیشنز اور سروسز بنانے کی ترغیب دینا ہے جو صوتی معاونین کی صلاحیتوں کو بڑھاتی ہیں۔ ڈویلپرز کی توجہ مبذول کرنے کے لیے، Amazon نے شائع شدہ ڈیٹا سیٹ کا استعمال کرتے ہوئے بہترین عام ماڈل بنانے کے لیے ایک مقابلہ شروع کیا۔

فی الحال، صوتی معاونین صرف چند زبانوں کو سپورٹ کرتے ہیں اور ایک مخصوص زبان سے منسلک مشین لرننگ ماڈل استعمال کرتے ہیں۔ MASSIVE پروجیکٹ کا مقصد مختلف زبانوں میں معلومات کو پارس اور پروسیس کرنے کے قابل عالمگیر ماڈل اور مشین لرننگ سسٹم بنا کر اس کمی کو ختم کرنا ہے۔

ماخذ: opennet.ru

نیا تبصرہ شامل کریں