Facebook发布支持200种语言的机器翻译模型

Facebook(在俄罗斯联邦被禁止)发布了 NLLB(No Language Left Behind)项目的进展,旨在创建一个通用机器学习模型,直接将文本从一种语言翻译成另一种语言,绕过中间翻译成英语。 提出的模型涵盖了 200 多种语言,包括非洲和澳大利亚人民的稀有语言。 该项目的最终目标是为任何人提供一种沟通方式,无论他们说什么语言。

该模型根据 Creative Commons BY-NC 4.0 许可证获得许可,该许可证允许复制、重新分发、定制和衍生作品,前提是您提供归属、维护许可证并将其仅用于非商业目的。 用于处理模型的工具是根据 MIT 许可证提供的。 为了刺激 NLLB 模型的发展,决定拨款 200 万美元向研究人员提供资助。

为了简化使用建议模型的项目创建,用于测试和评估模型质量的应用程序代码(FLORES-200、NLLB-MD、Toxicity-200)、基于 LASER3 库的训练模型和编码器代码(与语言无关的 SEtence)也是开源的(表示)。 最终模型有两个版本 - 完整版和缩短版。 缩短的版本需要更少的资源,适合在研究项目中测试和使用。

与其他基于机器学习系统的翻译系统不同,Facebook 的解决方案值得注意的是,它为所有 200 种语言提供了一个通用模型,涵盖了所有语言,并且不需要为每种语言使用单独的模型。 翻译直接从源语言到目标语言,无需中间翻译成英语。 为了创建通用翻译系统,还提出了 LID 模型(语言识别),这使得可以确定所使用的语言。 那些。 系统可以自动识别信息以哪种语言提供,并将其翻译成用户的语言。

支持 200 种受支持语言之间任意方向的翻译。 为了确认任何语言之间的翻译质量,准备了 FLORES-200 参考测试集,结果表明,在使用 NLLB-200 模型时,NLLB-44 模型在翻译质量方面比之前提出的基于机器学习的研究系统平均高出 70%比较机器翻译与标准人工翻译的 BLEU 指标。 对于罕见的非洲语言和印度方言,质量优势达到XNUMX%。 可以在专门准备的演示网站上直观地评估翻译的质量。

来源: opennet.ru

添加评论