Facebook publikuje model tłumaczenia maszynowego obsługujący 200 języków

Facebook (zakazany w Federacji Rosyjskiej) opublikował rozwój projektu NLLB (No Language Left Behind), mającego na celu stworzenie uniwersalnego modelu uczenia maszynowego umożliwiającego bezpośrednie tłumaczenie tekstu z jednego języka na drugi, z pominięciem tłumaczenia pośredniego na angielski. Proponowany model obejmuje ponad 200 języków, w tym rzadkie języki ludów Afryki i Australii. Ostatecznym celem projektu jest zapewnienie możliwości komunikacji każdemu człowiekowi, niezależnie od języka, którym się posługuje.

Model jest objęty licencją Creative Commons BY-NC 4.0, która zezwala na kopiowanie, redystrybucję, dostosowywanie i tworzenie dzieł pochodnych pod warunkiem podania autorstwa, zachowania licencji i wykorzystania go wyłącznie do celów niekomercyjnych. Narzędzia do pracy z modelami udostępniane są na licencji MIT. Aby stymulować rozwój w oparciu o model NLLB, zdecydowano się przeznaczyć 200 tys. dolarów na granty dla badaczy.

Aby uprościć tworzenie projektów z wykorzystaniem zaproponowanego modelu, kod aplikacji służących do testowania i oceny jakości modeli (FLORES-200, NLLB-MD, Toxicity-200), kod uczący modeli i koderów oparty na bibliotece LASER3 ( Language-Agnostic Sentence) są dodatkowo open source. Reprezentacja). Finalny model oferowany jest w dwóch wersjach – pełnej i skróconej. Skrócona wersja wymaga mniej zasobów i nadaje się do testowania i wykorzystania w projektach badawczych.

W odróżnieniu od innych systemów tłumaczeniowych opartych na systemach uczenia maszynowego, rozwiązanie Facebooka wyróżnia się tym, że oferuje jeden ogólny model dla wszystkich 200 języków, obejmujący wszystkie języki i niewymagający stosowania oddzielnych modeli dla każdego języka. Tłumaczenie odbywa się bezpośrednio z języka źródłowego na język docelowy, bez pośredniego tłumaczenia na język angielski. Do tworzenia uniwersalnych systemów tłumaczeniowych proponuje się dodatkowo model LID (Language IDentification), który pozwala na określenie używanego języka. Te. system może automatycznie rozpoznać, w jakim języku są podawane informacje i przetłumaczyć je na język użytkownika.

Obsługiwane jest tłumaczenie w dowolnym kierunku, pomiędzy dowolnym z 200 obsługiwanych języków. W celu potwierdzenia jakości tłumaczeń pomiędzy dowolnymi językami przygotowano zestaw testów referencyjnych FLORES-200, który wykazał, że model NLLB-200 pod względem jakości tłumaczeń przewyższa proponowane wcześniej systemy badawcze oparte na uczeniu maszynowym przy wykorzystaniu Wskaźniki BLEU porównujące tłumaczenie maszynowe ze standardowym tłumaczeniem ludzkim. W przypadku rzadkich języków afrykańskich i dialektów indyjskich przewaga jakości sięga 44%. Jakość tłumaczenia można wizualnie ocenić na specjalnie przygotowanej stronie demonstracyjnej.

Źródło: opennet.ru

Dodaj komentarz