Facebook 200 тилди колдогон машина котормо моделин жарыялайт

Facebook (Россия Федерациясында тыюу салынган) NLLB (No Language Left Behind) долбоорунун иштеп чыгууларын жарыялады, ал англис тилине аралык котормосун айланып өтүп, текстти бир тилден экинчи тилге түз которуу үчүн универсалдуу машина үйрөнүү моделин түзүүгө багытталган. Сунушталган модель 200дөн ашык тилди, анын ичинде африкалык жана австралиялык элдердин сейрек тилдерин камтыйт. Долбоордун түпкү максаты – кайсы тилде сүйлөгөнүнө карабастан, ар бир эл үчүн баарлашуу каражатын камсыз кылуу.

Модель Creative Commons BY-NC 4.0 лицензиясынын негизинде лицензияланган, ал көчүрүүгө, кайра бөлүштүрүүгө, ыңгайлаштырууга жана туунду иштерге уруксат берет, эгерде сиз атрибуция берип, лицензияны сактасаңыз жана аны коммерциялык эмес максаттарда гана колдонсоңуз. Моделдер менен иштөө үчүн куралдар MIT лицензиясы боюнча берилген. NLLB моделин колдонуу менен өнүгүүнү стимулдаштыруу үчүн изилдөөчүлөргө гранттарды берүү үчүн 200 миң доллар бөлүү чечими кабыл алынды.

Сунуш кылынган моделди колдонуу менен долбоорлорду түзүүнү жөнөкөйлөтүү үчүн моделдердин сапатын тестирлөө жана баалоо үчүн колдонулуучу тиркемелердин коду (FLORES-200, NLLB-MD, Toxicity-200), LASER3 китепканасынын негизинде окутуу моделдеринин жана коддогучтардын коду ( Language-Agnostic Sentence) кошумча ачык булак болуп саналат. Өкүлчүлүк). Акыркы модель эки вариантта сунушталат - толук жана кыскартылган. Кыскартылган версия азыраак ресурстарды талап кылат жана изилдөө долбоорлорунда сыноо жана колдонуу үчүн ылайыктуу.

Машина үйрөнүү системаларына негизделген башка котормо системаларынан айырмаланып, Facebookтун чечими бардык тилдерди камтыган жана ар бир тил үчүн өзүнчө моделдерди колдонууну талап кылбаган бардык 200 тил үчүн бир жалпы моделди сунуш кылганы менен өзгөчөлөнөт. Котормо англис тилине ортоңку котормосуз, түпнуска тилден котормо тилге түз жүргүзүлөт. Котормолордун универсалдуу системаларын түзүү үчүн LID модели (Language Identification) кошумча сунушталат, бул колдонулган тилди аныктоого мүмкүндүк берет. Ошол. система маалымат кайсы тилде берилгенин автоматтык түрдө таанып, аны колдонуучунун тилине которо алат.

Котормо 200 колдоого алынган тилдердин ичинен каалаган багытта колдоого алынат. Ар кандай тилдердин ортосундагы котормонун сапатын тастыктоо үчүн FLORES-200 маалымдама тест комплекси даярдалган, бул NLLB-200 модели котормо сапаты боюнча мурда сунушталган машина үйрөнүүсүнө негизделген изилдөө системаларынан орточо 44% жогору экенин көрсөткөн. Машина котормосун стандарттык адам котормосу менен салыштырган BLEU көрсөткүчтөрү. Сейрек кездешүүчү африкалык тилдер жана индиялык диалектилер үчүн сапаттык артыкчылык 70% га жетет. Атайын даярдалган демо-сайтта котормонун сапатын визуалдык баалоого болот.

Source: opennet.ru

Комментарий кошуу