Facebook publikigas maŝintradukan modelon kiu subtenas 200 lingvojn

Fejsbuko (malpermesita en la Rusa Federacio) publikigis la evoluojn de la projekto NLLB (Neniu Language Left Behind), celanta krei universalan maŝinlernmodelon por rekte traduki tekston de unu lingvo al alia, preterirante mezan tradukon en la anglan. La proponita modelo kovras pli ol 200 lingvojn, inkluzive de maloftaj lingvoj de afrikaj kaj aŭstraliaj popoloj. La fina celo de la projekto estas disponigi rimedon por komunikado por iu ajn popolo, sendepende de la lingvo kiun ili parolas.

La modelo estas licencita laŭ permesilo Krea Komunaĵo BY-NC 4.0, kiu permesas kopiadon, redistribuon, personigon kaj derivitajn verkojn, kondiĉe ke vi donas atribuon, konservas la permesilon kaj uzu ĝin nur por nekomercaj celoj. Iloj por labori kun modeloj estas disponigitaj sub la MIT-licenco. Por stimuli evoluon uzante la NLLB-modelon, estis decidite asigni 200 mil USD por doni subvenciojn al esploristoj.

Simpligi la kreadon de projektoj uzante la proponitan modelon, la kodon de aplikoj uzataj por testado kaj taksado de la kvalito de modeloj (FLORES-200, NLLB-MD, Toxicity-200), kodo por trejnado de modeloj kaj kodiloj bazitaj sur la biblioteko LASER3 ( Lingvo-Agnostika Frazo) estas aldone malfermfontaj. Reprezento). La fina modelo estas ofertita en du versioj - plena kaj mallongigita. La mallongigita versio postulas malpli da rimedoj kaj taŭgas por testado kaj uzo en esplorprojektoj.

Male al aliaj traduksistemoj bazitaj sur maŝinlernado-sistemoj, la solvo de Facebook estas rimarkinda pro tio, ke ĝi ofertas unu ĝeneralan modelon por ĉiuj 200 lingvoj, kovrante ĉiujn lingvojn kaj ne postulante la uzon de apartaj modeloj por ĉiu lingvo. Tradukado estas farita rekte de la fontlingvo al la cellingvo, sen meza traduko en la anglan. Por krei universalajn traduksistemojn, estas aldone proponita modelo LID (Language IDentification), kiu ebligas determini la uzatan lingvon. Tiuj. la sistemo povas aŭtomate rekoni en kiu lingvo la informoj estas provizitaj kaj traduki ĝin en la lingvon de la uzanto.

Tradukado estas subtenata en ajna direkto, inter iu ajn el la 200 subtenataj lingvoj. Por konfirmi la kvaliton de tradukado inter iuj lingvoj, la referenca testaro FLORES-200 estis preparita, kiu montris, ke la modelo NLLB-200 laŭ tradukkvalito estas averaĝe 44% pli alta ol antaŭe proponitaj maŝinlernadaj esplorsistemoj kiam oni uzas. BLEU-metrikoj komparantaj maŝintradukadon kun norma homa traduko. Por maloftaj afrikaj lingvoj kaj hindaj dialektoj, la kvalita supereco atingas 70%. Eblas vide taksi la kvaliton de la traduko sur speciale preta demo-retejo.

fonto: opennet.ru

Aldoni komenton