Facebook เผยแพร่โมเดลการแปลด้วยเครื่องที่รองรับ 200 ภาษา

Facebook (ถูกแบนในสหพันธรัฐรัสเซีย) ได้เผยแพร่การพัฒนาของโครงการ NLLB (No Language Left Behind) โดยมีวัตถุประสงค์เพื่อสร้างโมเดลการเรียนรู้ของเครื่องสากลสำหรับการแปลข้อความจากภาษาหนึ่งไปยังอีกภาษาหนึ่งโดยตรง โดยข้ามการแปลระดับกลางเป็นภาษาอังกฤษ แบบจำลองที่นำเสนอครอบคลุมมากกว่า 200 ภาษา รวมถึงภาษาที่หายากของชาวแอฟริกันและออสเตรเลีย เป้าหมายสูงสุดของโครงการคือการจัดเตรียมช่องทางในการสื่อสารสำหรับทุกคน ไม่ว่าพวกเขาจะพูดภาษาใดก็ตาม

โมเดลนี้ได้รับอนุญาตภายใต้ใบอนุญาต Creative Commons BY-NC 4.0 ซึ่งอนุญาตให้คัดลอก แจกจ่ายซ้ำ ปรับแต่ง และดัดแปลงผลงาน โดยมีเงื่อนไขว่าคุณต้องระบุแหล่งที่มา รักษาใบอนุญาต และใช้เพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์เท่านั้น เครื่องมือสำหรับการทำงานกับโมเดลมีให้ภายใต้ใบอนุญาต MIT เพื่อกระตุ้นการพัฒนาโดยใช้แบบจำลอง NLLB จึงมีการตัดสินใจที่จะจัดสรรเงิน 200 ดอลลาร์เพื่อมอบทุนให้กับนักวิจัย

เพื่อลดความซับซ้อนในการสร้างโครงการโดยใช้แบบจำลองที่นำเสนอ รหัสของแอปพลิเคชันที่ใช้สำหรับการทดสอบและการประเมินคุณภาพของแบบจำลอง (FLORES-200, NLLB-MD, Toxicity-200) รหัสสำหรับแบบจำลองการฝึกอบรมและตัวเข้ารหัสตามไลบรารี LASER3 ( Language-Agnostic SEntence) เป็นโอเพ่นซอร์สเพิ่มเติม การเป็นตัวแทน) รุ่นสุดท้ายมีให้เลือกสองเวอร์ชัน - แบบสมบูรณ์และแบบสั้น เวอร์ชันย่อต้องใช้ทรัพยากรน้อยลง และเหมาะสำหรับการทดสอบและใช้ในโครงการวิจัย

แตกต่างจากระบบการแปลอื่นๆ ที่ใช้ระบบการเรียนรู้ของเครื่อง โซลูชันของ Facebook มีความโดดเด่นตรงที่เสนอโมเดลทั่วไปเพียงโมเดลเดียวสำหรับทั้งหมด 200 ภาษา ครอบคลุมทุกภาษา และไม่ต้องใช้โมเดลแยกกันสำหรับแต่ละภาษา การแปลจะดำเนินการโดยตรงจากภาษาต้นฉบับเป็นภาษาเป้าหมาย โดยไม่มีการแปลระดับกลางเป็นภาษาอังกฤษ ในการสร้างระบบการแปลสากล มีการเสนอแบบจำลอง LID (การระบุภาษา) เพิ่มเติม ซึ่งทำให้สามารถกำหนดภาษาที่ใช้ได้ เหล่านั้น. ระบบสามารถจดจำภาษาที่ให้ข้อมูลได้โดยอัตโนมัติและแปลเป็นภาษาของผู้ใช้

รองรับการแปลในทุกทิศทางระหว่างภาษาใดก็ได้จาก 200 ภาษาที่รองรับ เพื่อยืนยันคุณภาพการแปลระหว่างภาษาต่างๆ จึงได้เตรียมชุดทดสอบอ้างอิง FLORES-200 ซึ่งแสดงให้เห็นว่าโมเดล NLLB-200 ในแง่ของคุณภาพการแปลโดยเฉลี่ยนั้นเหนือกว่าระบบการวิจัยที่ใช้การเรียนรู้ของเครื่องที่นำเสนอก่อนหน้านี้โดยเฉลี่ย 44% เมื่อใช้ ตัวชี้วัด BLEU เปรียบเทียบการแปลด้วยคอมพิวเตอร์กับการแปลโดยมนุษย์มาตรฐาน สำหรับภาษาแอฟริกันที่หายากและภาษาถิ่นอินเดีย คุณภาพที่เหนือกว่าจะสูงถึง 70% สามารถประเมินคุณภาพของการแปลด้วยสายตาได้จากไซต์สาธิตที่จัดเตรียมไว้เป็นพิเศษ

ที่มา: opennet.ru

เพิ่มความคิดเห็น