Facebook 200 மொழிகளை ஆதரிக்கும் இயந்திர மொழிபெயர்ப்பு மாதிரியை வெளியிடுகிறது

Facebook (ரஷ்ய கூட்டமைப்பில் தடைசெய்யப்பட்டுள்ளது) NLLB (பின்னால் எந்த மொழியும் இல்லை) திட்டத்தின் வளர்ச்சிகளை வெளியிட்டது, இது ஒரு மொழியிலிருந்து மற்றொரு மொழிக்கு நேரடியாக மொழிபெயர்ப்பதற்கான உலகளாவிய இயந்திர கற்றல் மாதிரியை உருவாக்குவதை நோக்கமாகக் கொண்டது, இடைநிலை மொழிபெயர்ப்பை ஆங்கிலத்தில் கடந்து செல்கிறது. முன்மொழியப்பட்ட மாதிரியானது ஆப்பிரிக்க மற்றும் ஆஸ்திரேலிய மக்களின் அரிய மொழிகள் உட்பட 200 க்கும் மேற்பட்ட மொழிகளை உள்ளடக்கியது. எந்தவொரு மக்களும் அவர்கள் பேசும் மொழியைப் பொருட்படுத்தாமல் தகவல்தொடர்புக்கான வழிமுறையை வழங்குவதே திட்டத்தின் இறுதி இலக்கு.

இந்த மாதிரியானது கிரியேட்டிவ் காமன்ஸ் BY-NC 4.0 உரிமத்தின் கீழ் உரிமம் பெற்றது, இது நகலெடுப்பது, மறுவிநியோகம், தனிப்பயனாக்கம் மற்றும் வழித்தோன்றல் பணிகளை அனுமதிக்கிறது, நீங்கள் பண்புக்கூறு அளித்தால், உரிமத்தைப் பராமரித்து, வணிக நோக்கங்களுக்காக மட்டுமே பயன்படுத்த வேண்டும். மாதிரிகளுடன் பணிபுரியும் கருவிகள் எம்ஐடி உரிமத்தின் கீழ் வழங்கப்படுகின்றன. NLLB மாதிரியைப் பயன்படுத்தி வளர்ச்சியைத் தூண்டுவதற்கு, ஆராய்ச்சியாளர்களுக்கு மானியம் வழங்க $ 200 ஆயிரம் ஒதுக்க முடிவு செய்யப்பட்டது.

முன்மொழியப்பட்ட மாதிரியைப் பயன்படுத்தி திட்டங்களை உருவாக்குவதை எளிதாக்க, மாதிரிகளின் தரத்தை சோதிக்கவும் மதிப்பிடவும் பயன்படுத்தப்படும் பயன்பாடுகளின் குறியீடு (FLORES-200, NLLB-MD, Toxicity-200), LASER3 நூலகத்தின் அடிப்படையில் பயிற்சி மாதிரிகள் மற்றும் குறியாக்கிகளுக்கான குறியீடு ( மொழி-அஞ்ஞான வாக்கியம்) கூடுதலாக திறந்த மூலமாகும். பிரதிநிதித்துவம்). இறுதி மாதிரி இரண்டு பதிப்புகளில் வழங்கப்படுகிறது - முழு மற்றும் சுருக்கப்பட்டது. சுருக்கப்பட்ட பதிப்பிற்கு குறைவான ஆதாரங்கள் தேவை மற்றும் சோதனை மற்றும் ஆராய்ச்சி திட்டங்களில் பயன்படுத்த ஏற்றது.

இயந்திர கற்றல் அமைப்புகளை அடிப்படையாகக் கொண்ட பிற மொழிபெயர்ப்பு அமைப்புகளைப் போலல்லாமல், Facebook இன் தீர்வு குறிப்பிடத்தக்கது, இது அனைத்து 200 மொழிகளுக்கும் ஒரு பொதுவான மாதிரியை வழங்குகிறது, எல்லா மொழிகளையும் உள்ளடக்கியது மற்றும் ஒவ்வொரு மொழிக்கும் தனித்தனி மாதிரிகள் தேவையில்லை. ஆங்கிலத்தில் இடைநிலை மொழிபெயர்ப்பு இல்லாமல், மூல மொழியிலிருந்து இலக்கு மொழிக்கு நேரடியாக மொழிபெயர்ப்பு மேற்கொள்ளப்படுகிறது. உலகளாவிய மொழிபெயர்ப்பு அமைப்புகளை உருவாக்க, ஒரு LID மாதிரி (மொழி அடையாளம்) கூடுதலாக முன்மொழியப்பட்டது, இது பயன்படுத்தப்படும் மொழியை தீர்மானிக்க உதவுகிறது. அந்த. எந்த மொழியில் தகவல் வழங்கப்படுகிறது என்பதை கணினி தானாகவே அடையாளம் கண்டு, பயனரின் மொழியில் மொழிபெயர்க்க முடியும்.

200 ஆதரிக்கப்படும் மொழிகளில் எந்தத் திசையிலும் மொழிபெயர்ப்பு ஆதரிக்கப்படும். எந்த மொழிகளுக்கிடையேயான மொழிபெயர்ப்பின் தரத்தை உறுதிப்படுத்த, FLORES-200 குறிப்பு சோதனைத் தொகுப்பு தயாரிக்கப்பட்டது, இது மொழிபெயர்ப்பின் தரத்தின் அடிப்படையில் NLLB-200 மாதிரியானது, முன்னர் முன்மொழியப்பட்ட இயந்திர கற்றல் அடிப்படையிலான ஆராய்ச்சி அமைப்புகளை விட சராசரியாக 44% உயர்ந்தது என்பதைக் காட்டுகிறது. இயந்திர மொழிபெயர்ப்பை நிலையான மனித மொழிபெயர்ப்புடன் ஒப்பிடும் BLEU அளவீடுகள். அரிதான ஆப்பிரிக்க மொழிகள் மற்றும் இந்திய பேச்சுவழக்குகளுக்கு, தர மேன்மை 70% ஐ அடைகிறது. சிறப்பாக தயாரிக்கப்பட்ட டெமோ தளத்தில் மொழிபெயர்ப்பின் தரத்தை பார்வைக்கு மதிப்பீடு செய்ய முடியும்.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்