Bidh Facebook a’ foillseachadh modal eadar-theangachaidh inneal a bheir taic do 200 cànan

Tha Facebook (toirmisgte ann an Caidreachas na Ruis) air leasachaidhean pròiseact NLLB (No Language Left Behind) fhoillseachadh, a tha ag amas air modal ionnsachaidh inneal uile-choitcheann a chruthachadh airson eadar-theangachadh dìreach teacsa bho aon chànan gu cànan eile, a’ seachnadh eadar-theangachadh eadar-mheadhanach gu Beurla. Tha am modail a thathar a’ moladh a’ còmhdach còrr air 200 cànan, a’ toirt a-steach cànanan tearc sluagh Afraganach is Astràilia. 'S e prìomh amas a' phròiseict dòigh conaltraidh a thoirt do dhaoine sam bith, ge bith dè an cànan a bhruidhneas iad.

Tha cead aig a’ mhodail fo chead Creative Commons BY-NC 4.0, a cheadaicheas copaidh, ath-sgaoileadh, gnàthachadh, agus obraichean derivative, fhad ‘s a bheir thu seachad brìgh, gun cùm thu an cead, agus gun cleachd thu e airson adhbharan neo-mhalairteach a-mhàin. Tha innealan airson obrachadh le modailean air an toirt seachad fo chead MIT. Gus leasachadh a bhrosnachadh a’ cleachdadh modal NLLB, chaidh co-dhùnadh $200 mìle a riarachadh gus tabhartasan a thoirt do luchd-rannsachaidh.

Gus cruthachadh phròiseactan a dhèanamh nas sìmplidhe a ’cleachdadh a’ mhodail a chaidh a mholadh, an còd thagraidhean a thathas a ’cleachdadh airson deuchainn agus measadh càileachd mhodalan (FLORES-200, NLLB-MD, Toxicity-200), còd airson modalan trèanaidh agus encoders stèidhichte air leabharlann LASER3 ( Language-Agnostic SEentence) a bharrachd fosgailte tùs. Riochdachadh). Tha am modail mu dheireadh air a thabhann ann an dà dhreach - làn agus giorraichte. Feumaidh an dreach nas giorra nas lugha de ghoireasan agus tha e freagarrach airson deuchainn agus cleachdadh ann am pròiseactan rannsachaidh.

Eu-coltach ri siostaman eadar-theangachaidh eile stèidhichte air siostaman ionnsachaidh inneal, tha fuasgladh Facebook sònraichte leis gu bheil e a’ tabhann aon mhodail coitcheann airson a h-uile 200 cànan, a’ còmhdach a h-uile cànan agus gun fheum air modalan fa leth a chleachdadh airson gach cànan. Bithear ag eadar-theangachadh gu dìreach bhon chànan thùsail chun chànan amasach, gun eadar-theangachadh eadar-mheadhanach gu Beurla. Gus siostaman eadar-theangachaidh uile-choitcheann a chruthachadh, thathas a’ moladh cuideachd modal LID (Aithneachadh Cànain), a leigeas leis a’ chànan a thathar a’ cleachdadh a dhearbhadh. An fheadhainn sin. aithnichidh an siostam gu fèin-obrachail dè an cànan anns a bheil am fiosrachadh air a thoirt seachad agus eadar-theangachadh gu cànan an neach-cleachdaidh.

Tha eadar-theangachadh a’ faighinn taic ann an stiùireadh sam bith, eadar gin de na 200 cànan le taic. Gus càileachd eadar-theangachaidh eadar cànanan sam bith a dhearbhadh, chaidh seata deuchainn iomraidh FLORES-200 ullachadh, a sheall gu bheil modal NLLB-200 a thaobh càileachd eadar-theangachaidh gu cuibheasach 44% nas àirde na siostaman sgrùdaidh stèidhichte air ionnsachadh inneal a chaidh a mholadh roimhe seo nuair a thathar a’ cleachdadh. Meatrics BLEU a’ dèanamh coimeas eadar eadar-theangachadh inneal agus eadar-theangachadh daonna àbhaisteach. Airson cànanan Afraganach tearc agus dual-chainntean Innseanach, tha an àrd-inbhe càileachd a ’ruighinn 70%. Tha e comasach measadh lèirsinneach a dhèanamh air càileachd an eadar-theangachaidh air làrach demo a chaidh ullachadh gu sònraichte.

Source: fosgailtenet.ru

Cuir beachd ann