Amazon เผยแพร่ชุดข้อมูลเพื่อทำความเข้าใจคำพูดใน 51 ภาษา

Amazon ได้เผยแพร่ภายใต้ใบอนุญาต CC BY 4.0 ชุดข้อมูล แบบจำลองสำหรับระบบการเรียนรู้ของเครื่องจักร และเครื่องมือสำหรับการฝึกอบรมโมเดลของคุณเองที่สามารถใช้ เข้าใจข้อมูลเกี่ยวกับภาษาธรรมชาติ (NLU, ความเข้าใจภาษาธรรมชาติ) ชุดนี้ประกอบด้วยข้อความที่มีคำอธิบายประกอบและแยกประเภทมากกว่าล้านรายการที่จัดทำขึ้นสำหรับ 51 ภาษา

คอลเลกชัน SLURP ซึ่งแต่เดิมมีให้บริการเป็นภาษาอังกฤษ ถูกใช้เป็นข้อมูลอ้างอิงสำหรับการสร้างชุด MASSIVE ซึ่งได้รับการแปลเป็นภาษาอื่นอีก 50 ภาษาโดยใช้นักแปลมืออาชีพ เทคโนโลยีความเข้าใจภาษาธรรมชาติ (NLU) ของ Alexa จะแปลงคำพูดเป็นข้อความก่อน จากนั้นจึงนำโมเดล NLU หลายแบบไปใช้กับข้อความที่วิเคราะห์การมีอยู่ของคีย์เวิร์ดเพื่อกำหนดแก่นแท้ของคำถามของผู้ใช้

เป้าหมายประการหนึ่งของการสร้างและเผยแพร่ชุดนี้คือการปรับระบบสั่งงานด้วยเสียงเพื่อประมวลผลข้อมูลในหลายภาษาพร้อมกัน พร้อมทั้งสนับสนุนให้นักพัฒนาบุคคลที่สามสร้างแอปพลิเคชันและบริการที่ขยายขีดความสามารถของระบบสั่งงานด้วยเสียง เพื่อดึงดูดความสนใจของนักพัฒนา Amazon จึงเปิดตัวการแข่งขันเพื่อสร้างโมเดลทั่วไปที่ดีที่สุดโดยใช้ชุดข้อมูลที่เผยแพร่

ปัจจุบันระบบสั่งงานด้วยเสียงรองรับเพียงไม่กี่ภาษาและใช้โมเดลการเรียนรู้ของเครื่องที่เชื่อมโยงกับภาษาใดภาษาหนึ่ง โครงการ MASSIVE มีเป้าหมายที่จะขจัดข้อบกพร่องนี้ด้วยการสร้างแบบจำลองสากลและระบบการเรียนรู้ของเครื่องที่สามารถแยกวิเคราะห์และประมวลผลข้อมูลในภาษาต่างๆ

ที่มา: opennet.ru

เพิ่มความคิดเห็น