ፌስቡክ 200 ቋንቋዎችን የሚደግፍ የማሽን ትርጉም ሞዴል አሳትሟል

ፌስቡክ (በሩሲያ ፌዴሬሽን ውስጥ የተከለከለ) የመካከለኛውን ትርጉም ወደ እንግሊዝኛ በማለፍ ዓለም አቀፍ የማሽን መማሪያ ሞዴል ለመፍጠር ዓላማ ያለው የ NLLB (ከኋላ የቀረ ቋንቋ የለም) ፕሮጄክትን አሳትሟል። የቀረበው ሞዴል ከ200 በላይ ቋንቋዎችን ይሸፍናል፣ ብርቅዬ የአፍሪካ እና የአውስትራሊያ ቋንቋዎችን ጨምሮ። የፕሮጀክቱ የመጨረሻ ግብ የሚናገሩት ቋንቋ ምንም ይሁን ምን ለሁሉም ሰዎች የመገናኛ ዘዴ ማቅረብ ነው።

ሞዴሉ በCreative Commons BY-NC 4.0 ፍቃድ ስር ይገኛል፣ ይህም መቅዳት፣ ማሰራጨት፣ በፕሮጀክቶችዎ ውስጥ ማካተት እና የመነሻ ስራዎችን መፍጠር ያስችላል፣ ነገር ግን በባለቤትነት፣ በፈቃድ ማቆየት እና ለንግድ ዓላማዎች ብቻ ጥቅም ላይ ሊውል ይችላል። የሞዴሊንግ መሳሪያው በ MIT ፍቃድ ፍቃድ ተሰጥቶታል። የ NLLB ሞዴልን በመጠቀም ልማትን ለማነቃቃት ለተመራማሪዎች እርዳታ ለመስጠት 200 ሺህ ዶላር ለመመደብ ተወስኗል።

የታቀደውን ሞዴል በመጠቀም የፕሮጀክቶችን አፈጣጠር ለማቃለል የሞዴሎችን ጥራት ለመፈተሽ እና ለመገምገም የሚያገለግሉ የመተግበሪያዎች ኮድ (FLORES-200, NLLB-MD, Toxicity-200), የስልጠና ሞዴሎች እና ኢንኮዲተሮች በLASER3 ቤተ-መጽሐፍት ላይ የተመሰረተ ነው. (ቋንቋ-አግኖስቲክ ሴንትንስ ውክልና)። የመጨረሻው ሞዴል በሁለት ስሪቶች ቀርቧል - ሙሉ እና የተቀነሰ. የተቀነሰው እትም ጥቂት ሀብቶችን ይፈልጋል እና ለሙከራ እና ለምርምር ፕሮጀክቶች ለመጠቀም ተስማሚ ነው።

እንደሌሎች የማሽን መማሪያን መሰረት ያደረጉ የትርጉም ሥርዓቶች፣ የፌስቡክ መፍትሔ ለሁሉም 200 ቋንቋዎች አንድ የተለመደ ሞዴል በማቅረብ ሁሉንም ቋንቋዎች የሚሸፍን እና ለእያንዳንዱ ቋንቋ የተለየ ሞዴሎችን የማይፈልግ ነው። መካከለኛ ወደ እንግሊዝኛ ሳይተረጎም በቀጥታ ከምንጩ ወደ ዒላማው ቋንቋ ትርጉም ይከናወናል። ሁለንተናዊ የትርጉም ሥርዓቶችን ለመፍጠር, ተጨማሪ LID-ሞዴል (ቋንቋ መታወቂያ) ቀርቧል, ይህም ጥቅም ላይ የዋለውን ቋንቋ ለመወሰን ያስችላል. እነዚያ። ስርዓቱ መረጃው የቀረበበትን ቋንቋ በራስ ሰር አውቆ ወደ ተጠቃሚው ቋንቋ መተርጎም ይችላል።

ትርጉም በማንኛውም አቅጣጫ ይደገፋል፣ በሚደገፉ 200 ቋንቋዎች መካከል። በየትኛውም ቋንቋዎች መካከል የትርጉም ጥራትን ለማረጋገጥ የ FLORES-200 የማጣቀሻ ፈተና ስብስብ ተዘጋጅቷል, ይህም የ NLLB-200 ሞዴል, በትርጉም ጥራት, በማሽን መማር ላይ ተመስርተው ቀደም ሲል ከታቀዱት የምርምር ስርዓቶች በአማካይ 44% ብልጫ እንዳለው ያሳያል. የማሽን ትርጉምን ከመደበኛ የሰው ትርጉም ጋር የሚያወዳድሩ የ BLEU መለኪያዎችን ሲጠቀሙ። ለአፍሪካ ብርቅዬ ቋንቋዎች እና የህንድ ቀበሌኛዎች የጥራት ብልጫ 70% ይደርሳል። በልዩ ሁኔታ በተዘጋጀ የማሳያ ጣቢያ ላይ የትርጉሙን ጥራት በእይታ መገምገም ፋሽን ነው።

ምንጭ: opennet.ru

አስተያየት ያክሉ