Facebook jippubblika mudell ta' traduzzjoni awtomatika li jappoġġja 200 lingwa

Facebook (ipprojbit fil-Federazzjoni Russa) ippubblika l-iżviluppi tal-proġett NLLB (No Language Left Behind), immirat lejn il-ħolqien ta’ mudell universali ta’ tagħlim tal-magni għat-traduzzjoni diretta tat-test minn lingwa għal oħra, billi tevita t-traduzzjoni intermedja għall-Ingliż. Il-mudell propost ikopri aktar minn 200 lingwa, inklużi lingwi rari tal-popli Afrikani u Awstraljani. L-għan aħħari tal-proġett huwa li jipprovdi mezz ta’ komunikazzjoni għal kwalunkwe nies, irrispettivament mill-lingwa li jitkellmu.

Il-mudell huwa liċenzjat taħt liċenzja Creative Commons BY-NC 4.0, li tippermetti l-ikkupjar, id-distribuzzjoni mill-ġdid, il-personalizzazzjoni, u xogħlijiet derivattivi, sakemm inti tagħti attribuzzjoni, iżżomm il-liċenzja, u tużaha għal skopijiet mhux kummerċjali biss. Għodod biex taħdem ma 'mudelli huma pprovduti taħt il-liċenzja MIT. Biex jiġi stimulat l-iżvilupp bl-użu tal-mudell NLLB, ġie deċiż li jiġu allokati $ 200 elf biex jipprovdu għotjiet lir-riċerkaturi.

Biex tissimplifika l-ħolqien ta 'proġetti bl-użu tal-mudell propost, il-kodiċi tal-applikazzjonijiet użati għall-ittestjar u l-valutazzjoni tal-kwalità tal-mudelli (FLORES-200, NLLB-MD, Tossiċità-200), kodiċi għal mudelli ta' taħriġ u kodifikaturi bbażati fuq il-librerija LASER3 ( Lingwa-Agnostic SEntence) huma addizzjonalment open source. Rappreżentazzjoni). Il-mudell finali huwa offrut f'żewġ verżjonijiet - sħiħa u mqassra. Il-verżjoni mqassra teħtieġ inqas riżorsi u hija adattata għall-ittestjar u l-użu fi proġetti ta 'riċerka.

B'differenza minn sistemi ta 'traduzzjoni oħra bbażati fuq sistemi ta' tagħlim bil-magni, is-soluzzjoni ta 'Facebook hija notevoli peress li toffri mudell ġenerali wieħed għall-200 lingwa kollha, li tkopri l-lingwi kollha u ma teħtieġx l-użu ta' mudelli separati għal kull lingwa. It-traduzzjoni titwettaq direttament mil-lingwa sors għal-lingwa fil-mira, mingħajr traduzzjoni intermedja għall-Ingliż. Biex jinħolqu sistemi ta 'traduzzjoni universali, mudell LID (Language IDentification) huwa wkoll propost, li jagħmilha possibbli li tiġi ddeterminata l-lingwa użata. Dawk. is-sistema tista’ awtomatikament tagħraf f’liema lingwa tiġi pprovduta l-informazzjoni u tittraduċiha fil-lingwa tal-utent.

It-traduzzjoni hija appoġġjata fi kwalunkwe direzzjoni, bejn kwalunkwe waħda mill-200 lingwa appoġġjata. Biex tikkonferma l-kwalità tat-traduzzjoni bejn kwalunkwe lingwa, tħejja s-sett tat-test ta' referenza FLORES-200, li wera li l-mudell NLLB-200 f'termini ta' kwalità tat-traduzzjoni huwa medja ta' 44% superjuri għal sistemi ta' riċerka bbażati fuq it-tagħlim tal-magni proposti qabel meta jintużaw. Metriċi BLEU li jqabblu traduzzjoni awtomatika mat-traduzzjoni umana standard. Għal lingwi Afrikani rari u djaletti Indjani, is-superjorità tal-kwalità tilħaq is-70%. Huwa possibbli li tiġi evalwata viżwalment il-kwalità tat-traduzzjoni fuq sit demo ppreparat apposta.

Sors: opennet.ru

Żid kumment