Mozilla DeepSpeech 0.6 කථන හඳුනාගැනීමේ එන්ජිම එළිදක්වයි

විසින් ඉදිරිපත් කරන ලදී Mozilla විසින් සංවර්ධනය කරන ලද කථන හඳුනාගැනීමේ එන්ජිම නිකුත් කිරීම DeepSpeech 0.6, එම නමින්ම කථන හඳුනාගැනීමේ ගෘහ නිර්මාණ ශිල්පය ක්‍රියාත්මක කරයි, යෝජනා කළා Baidu හි පර්යේෂකයන් විසිනි. ක්‍රියාත්මක කිරීම TensorFlow යන්ත්‍ර ඉගෙනුම් වේදිකාව භාවිතයෙන් Python හි ලියා ඇත විසින් බෙදා හරිනු ලැබේ නොමිලේ MPL 2.0 බලපත්‍රය යටතේ. Linux, Android, macOS සහ Windows මත වැඩ කිරීමට සහය දක්වයි. LePotato, Raspberry Pi 3 සහ Raspberry Pi 4 පුවරු මත එන්ජිම භාවිතා කිරීමට කාර්ය සාධනය ප්රමාණවත් වේ.

කට්ටලයට ද ඇතුළත් වේ ඉදිරිපත් කළා පුහුණු ආකෘති, උදාහරණ විධාන රේඛාවෙන් ශබ්ද ගොනු සහ හඳුනාගැනීමේ මෙවලම්. ඔබේ වැඩසටහන් වලට කථන හඳුනාගැනීමේ කාර්යය ඒකාබද්ධ කිරීම සඳහා, Python, NodeJS, C++ සහ .NET සඳහා භාවිතයට සූදානම් මොඩියුල පිරිනමනු ලැබේ (තෙවන පාර්ශවීය සංවර්ධකයින් සඳහා වෙන වෙනම මොඩියුල සකස් කර ඇත. මලකඩ и Go) නිමි ආකෘතිය ඉංග්‍රීසි සඳහා පමණක් සපයනු ලැබේ, නමුත් වෙනත් භාෂා සඳහා අමුණා ඇත උපදෙස් ඔබට පද්ධතිය භාවිතා කරමින් ඔබම පුහුණු කළ හැකිය හඬ දත්ත, පොදු හඬ ව්‍යාපෘතිය මගින් එකතු කරන ලදී.

DeepSpeech සාම්ප්‍රදායික පද්ධතිවලට වඩා බෙහෙවින් සරල වන අතර ඒ සමඟම බාහිර ඝෝෂාව හමුවේ උසස් තත්ත්වයේ පිළිගැනීමක් සපයයි. එය සාම්ප්‍රදායික ධ්වනි ආකෘති සහ දුරකථන සංකල්ප මග හරියි, ඒ වෙනුවට ශබ්දය, දෝංකාරය සහ කථන විශේෂාංග වැනි විවිධ විෂමතා ආදර්ශන කිරීම සඳහා වෙනම සංරචක සංවර්ධනය කිරීමේ අවශ්‍යතාවය ඉවත් කරන ඉහළ ප්‍රශස්ත ස්නායුක ජාල පදනම් වූ යන්ත්‍ර ඉගෙනුම් පද්ධතියක් භාවිතා කරයි.

මෙම ප්‍රවේශයේ අවාසිය නම්, ස්නායුක ජාලයක උසස් තත්ත්වයේ පිළිගැනීමක් සහ පුහුණුවක් ලබා ගැනීම සඳහා, DeepSpeech එන්ජිමට විශාල විෂමජාතීය දත්ත ප්‍රමාණයක් අවශ්‍ය වන අතර, විවිධ හඬවල් මගින් සැබෑ තත්ත්‍වයේ දී සහ ස්වභාවික ඝෝෂාව හමුවේ නියම කරනු ලැබේ.
Mozilla හි නිර්මාණය කරන ලද ව්යාපෘතියක් එවැනි දත්ත රැස් කරයි. පොදු හඬ, පැය 780 ක් සහිත සත්‍යාපිත දත්ත කට්ටලයක් සැපයීම ඉංග්රීසි භාෂාව, ජර්මානු භාෂාවෙන් 325 ක්, ප්රංශ භාෂාවෙන් 173 ක් සහ රුසියානු භාෂාවෙන් පැය 27 ක්.

පොදු හඬ ව්‍යාපෘතියේ අවසාන ඉලක්කය වනුයේ මානව කථනයේ සාමාන්‍ය වාක්‍ය ඛණ්ඩවල විවිධ උච්චාරණ පටිගත කිරීම් පැය 10 ක් රැස් කර ගැනීමයි, එමඟින් පිළිගත හැකි මට්ටමේ දෝෂ හඳුනා ගැනීමට ඉඩ සලසයි. එහි වර්තමාන ස්වරූපයෙන්, ව්‍යාපෘති සහභාගිවන්නන් දැනටමත් පැය 4.3 දහසක් නියම කර ඇති අතර ඉන් 3.5 දහසක් පරීක්ෂා කර ඇත. DeepSpeech සඳහා අවසාන ඉංග්‍රීසි භාෂා ආකෘතිය පුහුණු කිරීමේදී, LibriSpeech, Fisher සහ Switchboard ව්‍යාපෘතිවලින් Common Voice ආවරණ දත්තවලට අමතරව, පැය 3816ක පමණ පිටපත් කරන ලද ගුවන්විදුලි සංදර්ශන පටිගත කිරීම් ඇතුළුව පැය 1700 ක කථනය භාවිතා කරන ලදී.

බාගත කිරීම සඳහා ඉදිරිපත් කර ඇති සූදානම් කළ ඉංග්‍රීසි භාෂා ආකෘතිය භාවිතා කරන විට, පරීක්ෂණ කට්ටලයක් සමඟ තක්සේරු කළ විට DeepSpeech හි හඳුනාගැනීමේ දෝෂ අනුපාතය 7.5% කි. LibriSpeech. සංසන්දනය කිරීම සඳහා, මානව හඳුනාගැනීමේ දෝෂ අනුපාතය ඇගයීමට ලක් කෙරේ 5.83% දී.

DeepSpeech උප පද්ධති දෙකකින් සමන්විත වේ - ධ්වනි ආකෘතියක් සහ විකේතකයක්. ධ්වනි ආකෘතිය ආදාන ශබ්දයේ ඇතැම් අක්ෂර තිබීමේ සම්භාවිතාව ගණනය කිරීමට ගැඹුරු යන්ත්‍ර ඉගෙනීමේ ක්‍රම භාවිතා කරයි. අක්ෂර සම්භාවිතා දත්ත පෙළ නිරූපණයක් බවට පරිවර්තනය කිරීමට විකේතකය කිරණ සෙවුම් ඇල්ගොරිතමයක් භාවිතා කරයි.

ප්රධාන නවෝත්පාදන DeepSpeech 0.6 (0.6 ශාඛාව පෙර නිකුත් කිරීම් සමඟ නොගැලපෙන අතර කේතය සහ මාදිලි යාවත්කාලීන කිරීම් අවශ්‍ය වේ):

  • ඉහළ ප්‍රතිචාරයක් සපයන නව ප්‍රවාහ විකේතකයක් යෝජනා කර ඇති අතර එය සැකසූ ශ්‍රව්‍ය දත්තවල ප්‍රමාණයෙන් ස්වාධීන වේ. එහි ප්‍රතිඵලයක් ලෙස, DeepSpeech හි නව අනුවාදය හඳුනාගැනීමේ ප්‍රමාදය 260 ms දක්වා අඩු කිරීමට සමත් විය, එය පෙරට වඩා 73% වේගවත් වන අතර, DeepSpeech පියාසර කිරීමේදී කථන හඳුනාගැනීමේ විසඳුම් සඳහා භාවිතා කිරීමට ඉඩ සලසයි.
  • API වෙත වෙනස්කම් සිදු කර ඇති අතර ශ්‍රිත නාම ඒකාබද්ධ කිරීමට කටයුතු කර ඇත. සමමුහුර්තකරණය පිළිබඳ අතිරේක පාර-දත්ත ලබා ගැනීම සඳහා කාර්යයන් එකතු කර ඇත, ඔබට ප්‍රතිදානයක් ලෙස පෙළ නිරූපණයක් ලබා ගැනීමට පමණක් නොව, ශ්‍රව්‍ය ප්‍රවාහයේ ස්ථානයකට තනි අක්ෂර සහ වාක්‍ය බැඳීම නිරීක්ෂණය කිරීමට ද ඉඩ සලසයි.
  • පුහුණු මොඩියුල සඳහා මෙවලම් කට්ටලයට පුස්තකාලය භාවිතා කිරීම සඳහා සහාය එකතු කර ඇත CuDNN පුනරාවර්තන ස්නායුක ජාල (RNN) සමඟ වැඩ කිරීම ප්‍රශස්ත කිරීම සඳහා, ආකෘති පුහුණු කාර්ය සාධනයේ සැලකිය යුතු (ආසන්න වශයෙන් දෙගුණයක) වැඩි වීමක් ලබා ගැනීමට හැකි වූ නමුත්, කලින් සකස් කළ ආකෘති සමඟ අනුකූලතාව උල්ලංඝනය කළ කේතයේ වෙනස්කම් අවශ්‍ය විය.
  • අවම TensorFlow අනුවාද අවශ්‍යතා 1.13.1 සිට 1.14.0 දක්වා ඉහළ නංවා ඇත. TensorFlow Lite හි සැහැල්ලු සංස්කරණය සඳහා සහය එක් කරන ලද අතර එමඟින් DeepSpeech පැකේජයේ ප්‍රමාණය 98 MB සිට 3.7 MB දක්වා අඩු කරයි. කාවැද්දූ සහ ජංගම උපාංගවල භාවිතය සඳහා, ආකෘතිය සමඟ ඇසුරුම් කළ ගොනුවේ ප්‍රමාණය ද 188 MB සිට 47 MB ​​දක්වා අඩු කර ඇත (ආකෘතිය පුහුණු කිරීමෙන් පසු සම්පීඩනය සඳහා ප්‍රමාණකරණ ක්‍රමය භාවිතා කරයි).
  • භාෂා ආකෘතිය වෙනස් දත්ත ව්‍යුහ ආකෘතියකට පරිවර්තනය කර ඇති අතර එමඟින් ගොනු පටවන විට මතකයට සිතියම්ගත කිරීමට ඉඩ සලසයි. පැරණි ආකෘතිය සඳහා සහාය අත්හිටුවා ඇත.
  • භාෂා ආකෘතියක් සමඟ ගොනුවක් පැටවීමේ මාදිලිය වෙනස් කර ඇත, එය මතක පරිභෝජනය අඩු කර ඇති අතර ආකෘතිය නිර්මාණය කිරීමෙන් පසු පළමු ඉල්ලීම සැකසීමේදී ප්රමාදයන් අඩු කර ඇත. මෙහෙයුම අතරතුර, DeepSpeech දැන් 22 ගුණයකින් අඩු මතකයක් පරිභෝජනය කරන අතර 500 ගුණයකින් වේගයෙන් ආරම්භ වේ.

    Mozilla DeepSpeech 0.6 කථන හඳුනාගැනීමේ එන්ජිම එළිදක්වයි

  • භාෂා ආකෘතියේ දුර්ලභ වචන පෙරා ඇත. ආකෘතිය පුහුණු කිරීම සඳහා භාවිතා කරන ලද පාඨයේ ඇති වඩාත්ම ජනප්රිය වචන 500 දක්වා මුළු වචන ගණන අඩු කරන ලදී. පිරිසිදු කිරීම මඟින් භාෂා ආකෘතියේ ප්‍රමාණය 1800MB සිට 900MB දක්වා අඩු කිරීමට හැකි විය, හඳුනාගැනීමේ දෝෂ අනුපාතයට ප්‍රායෝගිකව කිසිදු බලපෑමක් නැත.
  • විවිධ සඳහා සහය එක් කරන ලදී කාර්මික ශිල්පියා පුහුණුවේදී භාවිතා කරන ශ්‍රව්‍ය දත්තවල අමතර වෙනස්කම් (වැඩි කිරීම) නිර්මාණය කිරීම (උදාහරණයක් ලෙස, විකල්ප කට්ටලයකට විකෘති කිරීම හෝ ශබ්දය එකතු කිරීම).
  • .NET වේදිකාව මත පදනම් වූ යෙදුම් සමඟ ඒකාබද්ධ කිරීම සඳහා බන්ධන සහිත පුස්තකාලයක් එක් කරන ලදී.
  • ලේඛන නැවත සකස් කර ඇති අතර දැන් එය වෙනම වෙබ් අඩවියක එකතු කර ඇත. deepspeech.readthedocs.io.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න