Facebook huchapisha muundo wa utafsiri wa mashine unaotumia lugha 200

Facebook (iliyopigwa marufuku katika Shirikisho la Urusi) imechapisha maendeleo ya mradi wa NLLB (No Language Left Behind), unaolenga kuunda kielelezo cha ulimwengu cha kujifunza kwa mashine kwa ajili ya kutafsiri moja kwa moja maandishi kutoka lugha moja hadi nyingine, na kupitisha tafsiri ya kati hadi Kiingereza. Mfano uliopendekezwa unashughulikia zaidi ya lugha 200, pamoja na lugha adimu za watu wa Kiafrika na Australia. Lengo kuu la mradi ni kutoa njia ya mawasiliano kwa watu wowote, bila kujali lugha wanayozungumza.

Muundo huu umeidhinishwa chini ya leseni ya Creative Commons BY-NC 4.0, ambayo inaruhusu kunakili, ugawaji upya, ubinafsishaji, na kazi zinazotoka nje, mradi unatoa maelezo, kudumisha leseni na kuitumia kwa madhumuni yasiyo ya kibiashara pekee. Zana za kufanya kazi na mifano hutolewa chini ya leseni ya MIT. Ili kuchochea maendeleo kwa kutumia modeli ya NLLB, iliamuliwa kutenga $200 elfu kutoa ruzuku kwa watafiti.

Ili kurahisisha uundaji wa miradi kwa kutumia modeli iliyopendekezwa, kanuni za maombi zinazotumiwa kupima na kutathmini ubora wa mifano (FLORES-200, NLLB-MD, Toxicity-200), kanuni za mifano ya mafunzo na encoders kulingana na maktaba ya LASER3 ( Sentensi ya Lugha-Agnostic) pia ni chanzo wazi. Uwakilishi). Mfano wa mwisho hutolewa katika matoleo mawili - kamili na yaliyofupishwa. Toleo lililofupishwa linahitaji rasilimali chache na linafaa kwa majaribio na matumizi katika miradi ya utafiti.

Tofauti na mifumo mingine ya tafsiri kulingana na mifumo ya kujifunza kwa mashine, suluhisho la Facebook ni muhimu kwa kuwa inatoa modeli moja ya jumla kwa lugha zote 200, inayojumuisha lugha zote na haihitaji matumizi ya miundo tofauti kwa kila lugha. Tafsiri hufanywa moja kwa moja kutoka lugha chanzi hadi lugha lengwa, bila tafsiri ya kati hadi Kiingereza. Ili kuunda mifumo ya tafsiri ya ulimwengu wote, mfano wa LID (Kitambulisho cha Lugha) inapendekezwa kwa kuongeza, ambayo inafanya uwezekano wa kuamua lugha inayotumiwa. Wale. mfumo unaweza kutambua kiotomatiki ni lugha gani taarifa hiyo imetolewa na kuitafsiri katika lugha ya mtumiaji.

Tafsiri inaweza kutumika katika mwelekeo wowote, kati ya lugha 200 zinazotumika. Ili kuthibitisha ubora wa tafsiri kati ya lugha zozote, seti ya majaribio ya marejeleo ya FLORES-200 ilitayarishwa, ambayo ilionyesha kuwa muundo wa NLLB-200 kulingana na ubora wa utafsiri kwa wastani ni 44% bora kuliko mifumo ya utafiti iliyopendekezwa hapo awali ya ujifunzaji wa mashine unapotumia. Vipimo vya BLEU vinavyolinganisha tafsiri ya mashine na tafsiri ya kawaida ya kibinadamu. Kwa lugha adimu za Kiafrika na lahaja za Kihindi, ubora wa ubora hufikia 70%. Inawezekana kutathmini ubora wa tafsiri kwenye tovuti maalum ya demo iliyoandaliwa.

Chanzo: opennet.ru

Kuongeza maoni