විස්පර් කථන හඳුනාගැනීමේ සහ පරිවර්තන පද්ධතිය සඳහා කේතය විවෘත කර ඇත

කෘතිම බුද්ධි ක්ෂේත්‍රයේ පොදු ව්‍යාපෘති සංවර්ධනය කරන OpenAI ව්‍යාපෘතිය, විස්පර් කථන හඳුනාගැනීමේ පද්ධතියට අදාළ වර්ධනයන් ප්‍රකාශයට පත් කර ඇත. ඉංග්‍රීසි භාෂාවෙන් කථනය සඳහා පද්ධතිය මානව හඳුනාගැනීම් වලට ආසන්න ස්වයංක්‍රීය හඳුනාගැනීමේ විශ්වසනීයත්වය සහ නිරවද්‍යතාවයේ මට්ටම් සපයන බව ප්‍රකාශ වේ. PyTorch රාමුව මත පදනම් වූ යොමු ක්‍රියාත්මක කිරීම සඳහා කේතය සහ භාවිතයට සූදානම්, දැනටමත් පුහුණු කර ඇති ආකෘති කට්ටලයක් විවෘත කර ඇත. කේතය MIT බලපත්‍රය යටතේ විවෘත වේ.

ආකෘතිය පුහුණු කිරීම සඳහා, විවිධ භාෂා සහ විෂය ක්ෂේත්‍ර ආවරණය වන පරිදි එකතු කිරීම් කිහිපයකින් එකතු කරන ලද කථන දත්ත පැය 680 ක් භාවිතා කරන ලදී. පුහුණුවට සම්බන්ධ කථන දත්තවලින් 1/3 ක් පමණ ඉංග්‍රීසි හැර වෙනත් භාෂාවලින් ඇත. යෝජිත පද්ධතිය උච්චාරණ උච්චාරණය, පසුබිම් ඝෝෂාව සහ තාක්ෂණික ප්‍රභාකරන් භාවිතා කිරීම වැනි අවස්ථා නිවැරදිව හසුරුවයි. කථනය පෙළ බවට පරිවර්තනය කිරීමට අමතරව, පද්ධතියට ඕනෑම භාෂාවකින් ඉංග්‍රීසි භාෂාවට කථනය පරිවර්තනය කිරීමට සහ ශ්‍රව්‍ය ප්‍රවාහයේ කථනයේ පෙනුම හඳුනා ගැනීමටද හැකිය.

ආකෘති නිරූපණ දෙකකින් සෑදී ඇත: ඉංග්‍රීසි භාෂාව සඳහා ආකෘතියක් සහ බහුභාෂා ආකෘතියක්, එය රුසියානු, යුක්රේන සහ බෙලාරුසියානු භාෂාවලට ද සහාය වේ. අනෙක් අතට, එක් එක් නිරූපණය විකල්ප 5 කට බෙදා ඇත, ආකෘතියේ ආවරණය කර ඇති ප්‍රමාණයෙන් සහ පරාමිති ගණනින් වෙනස් වේ. විශාල ප්‍රමාණය, හඳුනාගැනීමේ නිරවද්‍යතාවය සහ ගුණාත්මකභාවය වැඩි වන අතර, GPU වීඩියෝ මතකයේ ප්‍රමාණය සඳහා අවශ්‍යතා වැඩි වන අතර කාර්ය සාධනය අඩු වේ. උදාහරණයක් ලෙස, අවම විකල්පයට පරාමිති මිලියන 39 ක් ඇතුළත් වන අතර වීඩියෝ මතකය 1 GB අවශ්‍ය වන අතර උපරිමයට පරාමිති මිලියන 1550 ක් ඇතුළත් වන අතර වීඩියෝ මතකය 10 GB අවශ්‍ය වේ. අවම විකල්පය උපරිමයට වඩා 32 ගුණයකින් වේගවත් වේ.

විස්පර් කථන හඳුනාගැනීමේ සහ පරිවර්තන පද්ධතිය සඳහා කේතය විවෘත කර ඇත

පද්ධතිය ට්‍රාන්ස්ෆෝමර් ස්නායුක ජාල ගෘහ නිර්මාණ ශිල්පය භාවිතා කරයි, එයට එකිනෙකින් අන්තර්ක්‍රියා කරන කේතකයක් සහ විකේතකයක් ඇතුළත් වේ. ශ්‍රව්‍යය තත්පර 30ක කොටස් වලට කැඩී, ඒවා log-Mel වර්ණාවලීක්ෂයක් බවට පරිවර්තනය කර කේතකය වෙත යවනු ලැබේ. සංකේතාකකයේ ප්‍රතිදානය විකේතකය වෙත යවනු ලබන අතර, එක් සාමාන්‍ය ආකෘතියක් තුළ, භාෂා හඳුනාගැනීම, වාක්‍ය ඛණ්ඩවල උච්චාරණයේ කාලානුක්‍රමය ගණනය කිරීම, කථනයේ පිටපත් කිරීම වැනි ගැටළු විසඳීමට ඉඩ සලසන විශේෂ ටෝකන සමඟ මිශ්‍ර පෙළ නිරූපණයක් පුරෝකථනය කරයි. විවිධ භාෂා, සහ ඉංග්රීසි පරිවර්තනය.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න