ෆේස්බුක් භාෂා 200කට සහය දක්වන යන්ත්‍ර පරිවර්තන ආකෘතියක් ප්‍රකාශයට පත් කරයි

Facebook (රුසියානු සමූහාණ්ඩුවේ තහනම් කර ඇත) NLLB (භාෂාවක් ඉතිරි නොවේ) ව්‍යාපෘතියේ වර්ධනයන් ප්‍රකාශයට පත් කර ඇති අතර, ඉංග්‍රීසි භාෂාවට අතරමැදි පරිවර්තනය මඟ හරිමින් එක් භාෂාවකින් තවත් භාෂාවකට කෙලින්ම පරිවර්තනය කිරීම සඳහා විශ්වීය යන්ත්‍ර ඉගෙනුම් ආකෘතියක් නිර්මාණය කිරීම අරමුණු කර ගෙන ඇත. යෝජිත ආකෘතිය අප්‍රිකානු සහ ඕස්ට්‍රේලියානු ජනතාවගේ දුර්ලභ භාෂා ඇතුළුව භාෂා 200 කට වඩා ආවරණය කරයි. ව්‍යාපෘතියේ අවසාන ඉලක්කය වන්නේ ඔවුන් කතා කරන භාෂාව කුමක් වුවත්, ඕනෑම පුද්ගලයන් සඳහා සන්නිවේදනය සඳහා මාධ්‍යයක් සැපයීමයි.

මෙම ආකෘතිය Creative Commons BY-NC 4.0 බලපත්‍රයක් යටතේ බලපත්‍ර ලබා ඇත, එය පිටපත් කිරීම, නැවත බෙදා හැරීම, අභිරුචිකරණය සහ ව්‍යුත්පන්න වැඩ සඳහා අවසර ලබා දෙයි, ඔබ ආරෝපණය ලබා දීම, බලපත්‍රය පවත්වාගෙන යාම සහ වාණිජ නොවන අරමුණු සඳහා පමණක් භාවිතා කරයි. MIT බලපත්රය යටතේ ආකෘති සමඟ වැඩ කිරීම සඳහා මෙවලම් සපයනු ලැබේ. NLLB ආකෘතිය භාවිතයෙන් සංවර්ධනය උත්තේජනය කිරීම සඳහා, පර්යේෂකයන්ට ආධාර ලබා දීම සඳහා ඩොලර් 200 දහසක් වෙන් කිරීමට තීරණය විය.

යෝජිත ආකෘතිය භාවිතයෙන් ව්‍යාපෘති නිර්මාණය කිරීම සරල කිරීම සඳහා, ආකෘතිවල ගුණාත්මකභාවය පරීක්ෂා කිරීම සහ තක්සේරු කිරීම සඳහා භාවිතා කරන යෙදුම් කේතය (FLORES-200, NLLB-MD, Toxicity-200), LASER3 පුස්තකාලය මත පදනම් වූ පුහුණු ආකෘති සහ කේතකයින් සඳහා කේතය ( Language-Agnostic entence) අතිරේකව විවෘත මූලාශ්‍ර වේ. නියෝජනය). අවසාන ආකෘතිය අනුවාද දෙකකින් ඉදිරිපත් කෙරේ - සම්පූර්ණ සහ කෙටි. කෙටි කරන ලද අනුවාදයට අඩු සම්පත් අවශ්‍ය වන අතර පර්යේෂණ ව්‍යාපෘතිවල පරීක්ෂණ සහ භාවිතය සඳහා සුදුසු වේ.

යන්ත්‍ර ඉගෙනුම් පද්ධති මත පදනම් වූ අනෙකුත් පරිවර්තන පද්ධති මෙන් නොව, Facebook හි විසඳුම කැපී පෙනෙන්නේ එය සියලුම භාෂා 200 සඳහා එක් සාමාන්‍ය ආකෘතියක් ලබා දීම, සියලු භාෂා ආවරණය කිරීම සහ එක් එක් භාෂාව සඳහා වෙනම ආකෘති භාවිතා කිරීම අවශ්‍ය නොවේ. ඉංග්‍රීසි භාෂාවට අතරමැදි පරිවර්තනයකින් තොරව, මූලාශ්‍ර භාෂාවේ සිට ඉලක්ක භාෂාවට පරිවර්තනය සෘජුවම සිදු කෙරේ. විශ්ව පරිවර්තන පද්ධති නිර්මාණය කිරීම සඳහා, LID ආකෘතියක් (භාෂා හැඳුනුම්පත) අතිරේකව යෝජනා කර ඇති අතර, එය භාවිතා කරන භාෂාව තීරණය කිරීමට හැකි වේ. එම. පද්ධතියට තොරතුරු සපයන්නේ කුමන භාෂාවෙන්ද යන්න ස්වයංක්‍රීයව හඳුනාගෙන එය පරිශීලකයාගේ භාෂාවට පරිවර්තනය කළ හැකිය.

සහාය දක්වන භාෂා 200 න් ඕනෑම එකක් අතර ඕනෑම දිශාවකට පරිවර්තනය සඳහා සහය දක්වයි. ඕනෑම භාෂාවක් අතර පරිවර්තනයේ ගුණාත්මකභාවය තහවුරු කිරීම සඳහා, FLORES-200 විමර්ශන පරීක්ෂණ කට්ටලය සකස් කරන ලද අතර, පරිවර්තන ගුණාත්මකභාවය අනුව NLLB-200 ආකෘතිය භාවිතා කරන විට කලින් යෝජිත යන්ත්‍ර ඉගෙනුම් පාදක පර්යේෂණ පද්ධතිවලට වඩා සාමාන්‍යයෙන් 44% උසස් බව පෙන්නුම් කළේය. BLEU ප්‍රමිතික යන්ත්‍ර පරිවර්තනය සම්මත මානව පරිවර්තනය සමඟ සංසන්දනය කරයි. දුර්ලභ අප්‍රිකානු භාෂා සහ ඉන්දියානු උපභාෂා සඳහා, ගුණාත්මක උසස් බව 70% දක්වා ළඟා වේ. විෙශේෂෙයන් සකස් කරන ලද ආදර්ශන අඩවියක පරිවර්තනයේ ගුණාත්මකභාවය දෘශ්‍යමය වශයෙන් ඇගයීමට ලක් කළ හැකිය.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න