Facebook發布支援200種語言的機器翻譯模型

Facebook(在俄羅斯聯邦被禁止)發布了NLLB(No Language Left Behind)計畫的進展,旨在創建一個通用機器學習模型,直接將文字從一種語言翻譯成另一種語言,繞過中間翻譯成英語。 提出的模型涵蓋了 200 多種語言,包括非洲和澳洲人民的稀有語言。 該專案的最終目標是為任何人提供一種溝通方式,無論他們說什麼語言。

該模型根據 Creative Commons BY-NC 4.0 許可證獲得許可,該許可證允許複製、重新分發、定制和衍生作品,前提是您提供歸屬、維護許可證並將其僅用於非商業目的。 用於處理模型的工具是根據 MIT 許可證提供的。 為了刺激 NLLB 模式的發展,決定撥款 200 萬美元向研究人員提供資助。

為了簡化使用建議模型的專案創建,用於測試和評估模型品質的應用程式程式碼(FLORES-200、NLLB-MD、Toxicity-200)、基於 LASER3 庫的訓練模型和編碼器程式碼(與語言無關的SEtence )也是開源的(表示)。 最終型號有兩個版本 - 完整版和縮短版。 縮短的版本需要更少的資源,適合在研究計畫中測試和使用。

與其他基於機器學習系統的翻譯系統不同,Facebook 的解決方案值得注意的是,它為所有 200 種語言提供了一個通用模型,涵蓋了所有語言,並且不需要為每種語言使用單獨的模型。 翻譯直接從原始語言到目標語言,無需中間翻譯成英文。 為了創建通用翻譯系統,還提出了 LID 模型(語言識別),這使得可以確定所使用的語言。 那些。 系統可以自動識別資訊以哪種語言提供,並將其翻譯成使用者的語言。

支援 200 種受支援語言之間任意方向的翻譯。 為了確認任何語言之間的翻譯質量,準備了 FLORES-200 參考測試集,結果表明,在使用比較機器翻譯與標準人工翻譯的 BLEU 指標。 對於罕見的非洲語言和印度方言,品質優勢達到200%。 可以在專門準備的演示網站上直觀地評估翻譯的品質。

來源: opennet.ru

添加評論