Facebook 200 тілге қолдау көрсететін машиналық аударма үлгісін жариялайды

Facebook (Ресей Федерациясында тыйым салынған) ағылшын тіліне аралық аударманы айналып өтіп, мәтінді бір тілден екінші тілге тікелей аудару үшін машиналық оқытудың әмбебап моделін құруға бағытталған NLLB (No Language Left Behind) жобасының әзірлемелерін жариялады. Ұсынылып отырған модель 200-ден астам тілді, соның ішінде африкалық және австралиялық халықтардың сирек тілдерін қамтиды. Жобаның түпкі мақсаты – қай тілде сөйлейтініне қарамастан кез келген халық үшін қарым-қатынас құралын қамтамасыз ету.

Модель көшіруге, қайта бөлуге, теңшеуге және туынды жұмыстарға рұқсат беретін Creative Commons BY-NC 4.0 лицензиясы бойынша лицензияланған, атрибуция беру, лицензияны сақтау және оны тек коммерциялық емес мақсаттарда пайдалану. Модельдермен жұмыс істеу құралдары MIT лицензиясы бойынша берілген. NLLB моделін қолдану арқылы дамуды ынталандыру үшін зерттеушілерге гранттар беру үшін $200 мың бөлу туралы шешім қабылданды.

Ұсынылған үлгіні пайдалана отырып жобаларды құруды жеңілдету үшін модельдердің сапасын тестілеу және бағалау үшін қолданылатын қолданбалы бағдарламалар коды (FLORES-200, NLLB-MD, Toxicity-200), LASER3 кітапханасы негізіндегі модельдер мен кодерлер үшін оқыту коды ( Language-Agnostic Sentence) қосымша ашық бастапқы болып табылады. Өкілдік). Соңғы үлгі екі нұсқада ұсынылады - толық және қысқартылған. Қысқартылған нұсқа азырақ ресурстарды қажет етеді және зерттеу жобаларында тестілеуге және пайдалануға жарамды.

Машиналық оқыту жүйелеріне негізделген басқа аударма жүйелерінен айырмашылығы, Facebook шешімі барлық тілдерді қамтитын және әр тіл үшін жеке үлгілерді пайдалануды қажет етпейтін барлық 200 тіл үшін бір жалпы үлгіні ұсынуымен ерекшеленеді. Аударма ағылшын тіліне аралық аудармасыз, бастапқы тілден аударма тілге тікелей жүзеге асырылады. Әмбебап аударма жүйелерін құру үшін LID үлгісі (Language Identification) қосымша ұсынылады, ол қолданылатын тілді анықтауға мүмкіндік береді. Анау. жүйе ақпараттың қай тілде берілгенін автоматты түрде тани алады және оны пайдаланушы тіліне аудара алады.

Аудармаға қолдау көрсетілетін 200 тілдің кез келгені арасында кез келген бағытта қолдау көрсетіледі. Кез келген тілдер арасындағы аударманың сапасын растау үшін FLORES-200 анықтамалық сынақ жинағы дайындалды, ол NLLB-200 үлгісі аударма сапасы бойынша бұрын ұсынылған машиналық оқыту негізіндегі зерттеу жүйелерін пайдалану кезінде орта есеппен 44% жоғары екенін көрсетті. Машиналық аударманы стандартты адам аудармасымен салыстыратын BLEU көрсеткіштері. Сирек кездесетін африкалық тілдер мен үнді диалектілері үшін сапа басымдығы 70% жетеді. Арнайы дайындалған демо-сайтта аударманың сапасын визуалды түрде бағалауға болады.

Ақпарат көзі: opennet.ru

пікір қалдыру