Facebook-ը հրապարակել է մեքենայական թարգմանության մոդել, որն աջակցում է 200 լեզուների

Facebook-ը (արգելված է Ռուսաստանի Դաշնությունում) հրապարակել է NLLB (No Language Left Behind) նախագծի մշակումները, որոնք ուղղված են մեքենայական ուսուցման ունիվերսալ մոդելի ստեղծմանը մի լեզվից մյուսը տեքստն ուղղակիորեն թարգմանելու համար՝ շրջանցելով միջանկյալ թարգմանությունը անգլերեն: Առաջարկվող մոդելն ընդգրկում է ավելի քան 200 լեզու, ներառյալ աֆրիկյան և ավստրալական ժողովուրդների հազվագյուտ լեզուները: Ծրագրի վերջնական նպատակն է հաղորդակցության միջոցներ տրամադրել ցանկացած մարդկանց՝ անկախ նրանից, թե որ լեզվից են խոսում:

Մոդելը լիցենզավորված է Creative Commons BY-NC 4.0 լիցենզիայի ներքո, որը թույլ է տալիս պատճենել, վերաբաշխել, հարմարեցնել և ածանցյալ աշխատանքները՝ պայմանով, որ դուք վերագրեք վերագրումը, պահպանեք լիցենզիան և օգտագործեք այն միայն ոչ առևտրային նպատակներով: Մոդելների հետ աշխատելու գործիքները տրամադրվում են MIT լիցենզիայի ներքո: NLLB մոդելով զարգացումը խթանելու նպատակով որոշվել է 200 հազար դոլար հատկացնել հետազոտողներին դրամաշնորհներ տրամադրելու համար։

Առաջարկվող մոդելի օգտագործմամբ նախագծերի ստեղծումը պարզեցնելու համար, մոդելների որակի փորձարկման և գնահատման համար օգտագործվող հավելվածների ծածկագիրը (FLORES-200, NLLB-MD, Toxicity-200), ուսուցման մոդելների և կոդավորիչների ծածկագիրը՝ հիմնված LASER3 գրադարանի վրա ( Լեզու-ագնոստիկ նախադասություն) լրացուցիչ բաց կոդով են։ Ներկայացուցչություն)։ Վերջնական մոդելն առաջարկվում է երկու տարբերակով՝ ամբողջական և կրճատված։ Կրճատված տարբերակը պահանջում է ավելի քիչ ռեսուրսներ և հարմար է փորձարկման և հետազոտական ​​նախագծերում օգտագործելու համար:

Ի տարբերություն մեքենայական ուսուցման համակարգերի վրա հիմնված այլ թարգմանչական համակարգերի, Facebook-ի լուծումը հատկանշական է նրանով, որ առաջարկում է մեկ ընդհանուր մոդել բոլոր 200 լեզուների համար՝ ընդգրկելով բոլոր լեզուները և չի պահանջում յուրաքանչյուր լեզվի համար օգտագործել առանձին մոդելներ: Թարգմանությունն իրականացվում է անմիջապես սկզբնաղբյուր լեզվից դեպի թիրախ լեզու՝ առանց անգլերեն միջանկյալ թարգմանության: Ունիվերսալ թարգմանչական համակարգեր ստեղծելու համար լրացուցիչ առաջարկվում է LID մոդելը (Language IDentification), որը հնարավորություն է տալիս որոշել օգտագործվող լեզուն։ Նրանք. համակարգը կարող է ավտոմատ կերպով ճանաչել, թե որ լեզվով է տրամադրված տեղեկատվությունը և այն թարգմանել օգտատիրոջ լեզվով:

Թարգմանությունն աջակցվում է ցանկացած ուղղությամբ՝ 200 աջակցվող լեզուներից որևէ մեկի միջև: Ցանկացած լեզուների միջև թարգմանության որակը հաստատելու համար պատրաստվել է FLORES-200 տեղեկատու թեստային հավաքածուն, որը ցույց է տվել, որ NLLB-200 մոդելը թարգմանության որակի առումով միջինը 44%-ով գերազանցում է նախկինում առաջարկված մեքենայական ուսուցման վրա հիմնված հետազոտական ​​համակարգերին, երբ օգտագործվում է: BLEU չափումներ, որոնք համեմատում են մեքենայական թարգմանությունը ստանդարտ մարդկային թարգմանության հետ: Աֆրիկյան հազվագյուտ լեզուների և հնդկական բարբառների համար որակի գերազանցությունը հասնում է 70%-ի: Հնարավոր է տեսողականորեն գնահատել թարգմանության որակը հատուկ պատրաստված ցուցադրական կայքում:

Source: opennet.ru

Добавить комментарий