Facebook publica modelo de tradução automática que suporta 200 idiomas

O Facebook (banido na Federação Russa) publicou os desenvolvimentos do projeto NLLB (No Language Left Behind), que visa criar um modelo universal de aprendizado de máquina para traduzir diretamente texto de um idioma para outro, ignorando a tradução intermediária para o inglês. O modelo proposto abrange mais de 200 línguas, incluindo línguas raras de povos africanos e australianos. O objetivo final do projeto é fornecer um meio de comunicação para qualquer pessoa, independentemente da língua que fale.

O modelo é licenciado sob uma licença Creative Commons BY-NC 4.0, que permite cópia, redistribuição, personalização e trabalhos derivados, desde que você atribua, mantenha a licença e use-a apenas para fins não comerciais. Ferramentas para trabalhar com modelos são fornecidas sob licença do MIT. Para estimular o desenvolvimento pelo modelo NLLB, decidiu-se destinar US$ 200 mil para conceder bolsas a pesquisadores.

Para simplificar a criação de projetos utilizando o modelo proposto, o código dos aplicativos utilizados para teste e avaliação da qualidade dos modelos (FLORES-200, NLLB-MD, Toxicity-200), código para treinamento de modelos e codificadores baseados na biblioteca LASER3 ( (Sentença independente de linguagem) também são de código aberto. Representação). O modelo final é oferecido em duas versões - completa e reduzida. A versão abreviada requer menos recursos e é adequada para testes e uso em projetos de pesquisa.

Ao contrário de outros sistemas de tradução baseados em sistemas de aprendizado de máquina, a solução do Facebook se destaca por oferecer um modelo geral para todos os 200 idiomas, abrangendo todos os idiomas e não exigindo o uso de modelos separados para cada idioma. A tradução é realizada diretamente do idioma de origem para o idioma de destino, sem tradução intermediária para o inglês. Para criar sistemas de tradução universais, é proposto adicionalmente um modelo LID (Language IDentification), que permite determinar o idioma utilizado. Aqueles. o sistema pode reconhecer automaticamente em qual idioma as informações são fornecidas e traduzi-las para o idioma do usuário.

A tradução é suportada em qualquer direção, entre qualquer um dos 200 idiomas suportados. Para confirmar a qualidade da tradução entre quaisquer idiomas, foi elaborado o conjunto de testes de referência FLORES-200, que mostrou que o modelo NLLB-200 em termos de qualidade de tradução é em média 44% superior aos sistemas de pesquisa baseados em aprendizado de máquina propostos anteriormente quando usando Métricas BLEU que comparam a tradução automática com a tradução humana padrão. Para raras línguas africanas e dialetos indianos, a superioridade de qualidade chega a 70%. É possível avaliar visualmente a qualidade da tradução em um site de demonstração especialmente preparado.

Fonte: opennet.ru

Adicionar um comentário