Facebook waxa uu daabacaa qaabka turjumaada mishiinka oo taageera 200 oo luqadood

Facebook (laga mamnuucay Xiriirka Ruushka) ayaa daabacday horumarka mashruuca NLLB (Luqad La'aan Laga Tagay), looga dan leeyahay in la abuuro qaab barasho mashiinka caalamiga ah oo si toos ah qoraalka hal luqad loogu turjumayo, iyadoo laga gudbayo tarjumaada dhexe ee Ingiriisiga. Qaabka la soo jeediyay wuxuu daboolayaa in ka badan 200 oo luqadood, oo ay ku jiraan luqadaha dhifka ah ee dadka Afrikaanka iyo Australiyaanka ah. Hadafka ugu dambeeya ee mashruucu waa in la siiyo hab ay ku wada xiriiraan dad kasta, iyadoon loo eegin luqadda ay ku hadlaan.

Qaabka waxa uu shati ku haystaa shatiga Creative Commons BY-NC 4.0, kaas oo fasaxaya koobiyaynta, dib u qaybinta, habaynta, iyo shaqooyinka kala soocida, waase haddii aad bixiso sifo, ilaaliso shatiga, oo aad u isticmaasho arimo aan ganacsi ahayn oo kaliya. Qalabka lagu shaqeeyo moodooyinka waxaa lagu bixiyaa shatiga MIT. Si loo kiciyo horumarinta iyadoo la adeegsanayo qaabka NLLB, waxaa la go'aamiyay in loo qoondeeyo $ 200 kun si loo bixiyo deeqaha cilmi-baarayaasha.

Si loo fududeeyo abuurista mashaariicda iyadoo la adeegsanayo qaabka la soo jeediyay, koodhka codsiyada loo isticmaalo tijaabinta iyo qiimaynta tayada moodooyinka (FLORES-200, NLLB-MD, Toxicity-200), code for model training and encoders based on the library LASER3 ( Language-Agnostic Sentence) ayaa sidoo kale ah il furan. Habka kama dambaysta ah waxaa lagu bixiyaa laba qaybood - buuxa iyo gaaban. Nooca la soo koobay wuxuu u baahan yahay ilo yar wuxuuna ku habboon yahay tijaabinta iyo isticmaalka mashaariicda cilmi-baarista.

Si ka duwan nidaamyada kale ee turjumaada ee ku salaysan hababka barashada mashiinka, xalka Facebook waa mid xusid mudan in ay bixiso hal nooc oo guud dhammaan 200 luqadood, oo daboolaya dhammaan luqadaha oo aan u baahnayn isticmaalka noocyo kala duwan oo luqad kasta ah. Turjumaada waxaa si toos ah looga fuliyaa luqadda asalka ah oo loo rogo luqadda la beegsanayo, iyada oo aan loo turjumin Ingiriisi dhexdhexaad ah. Si loo abuuro habab tarjumaad caalami ah, qaabka LID (Aqoonsiga Luuqadda) ayaa sidoo kale la soo jeediyay, kaas oo suurtogal ka dhigaya in la go'aamiyo luqadda la isticmaalo. Kuwaas. Nidaamku wuxuu si toos ah u aqoonsan karaa luqadda macluumaadka lagu bixiyay oo u tarjumi kara luqadda isticmaalaha.

Turjumaada waxaa lagu taageeraa jiho kasta, inta u dhaxaysa 200 oo luqadood oo la taageero. Si loo xaqiijiyo tayada tarjumaada luuqad kasta, FLORES-200 ayaa la diyaariyey tijaabada tixraaca, taas oo muujisay in qaabka NLLB-200 marka la eego tayada tarjumaada uu celcelis ahaan 44% ka sarreeyo nidaamyada cilmi-baarista ku salaysan mashiinka hore loo soo jeediyay marka la isticmaalayo. Qiyaasaha BLEU oo isbarbar dhigaya tarjumaada mashiinka iyo turjumaada caadiga ah ee aadanaha. Luuqadaha Afrika ee dhifka ah iyo lahjadaha Hindida, tayada sareynta waxay gaartaa 70%. Waa suurtagal in muuqaal ahaan lagu qiimeeyo tayada tarjumaada goobta demo si gaar ah loo diyaariyey.

Source: opennet.ru

Add a comment