කට්ටලයට ද ඇතුළත් වේ
DeepSpeech සාම්ප්රදායික පද්ධතිවලට වඩා බෙහෙවින් සරල වන අතර ඒ සමඟම බාහිර ඝෝෂාව හමුවේ උසස් තත්ත්වයේ පිළිගැනීමක් සපයයි. එය සාම්ප්රදායික ධ්වනි ආකෘති සහ දුරකථන සංකල්ප මග හරියි, ඒ වෙනුවට ශබ්දය, දෝංකාරය සහ කථන විශේෂාංග වැනි විවිධ විෂමතා ආදර්ශන කිරීම සඳහා වෙනම සංරචක සංවර්ධනය කිරීමේ අවශ්යතාවය ඉවත් කරන ඉහළ ප්රශස්ත ස්නායුක ජාල පදනම් වූ යන්ත්ර ඉගෙනුම් පද්ධතියක් භාවිතා කරයි.
මෙම ප්රවේශයේ අවාසිය නම්, ස්නායුක ජාලයක උසස් තත්ත්වයේ පිළිගැනීමක් සහ පුහුණුවක් ලබා ගැනීම සඳහා, DeepSpeech එන්ජිමට විශාල විෂමජාතීය දත්ත ප්රමාණයක් අවශ්ය වන අතර, විවිධ හඬවල් මගින් සැබෑ තත්ත්වයේ දී සහ ස්වභාවික ඝෝෂාව හමුවේ නියම කරනු ලැබේ.
Mozilla හි නිර්මාණය කරන ලද ව්යාපෘතියක් එවැනි දත්ත රැස් කරයි.
පොදු හඬ ව්යාපෘතියේ අවසාන ඉලක්කය වනුයේ මානව කථනයේ සාමාන්ය වාක්ය ඛණ්ඩවල විවිධ උච්චාරණ පටිගත කිරීම් පැය 10 ක් රැස් කර ගැනීමයි, එමඟින් පිළිගත හැකි මට්ටමේ දෝෂ හඳුනා ගැනීමට ඉඩ සලසයි. එහි වර්තමාන ස්වරූපයෙන්, ව්යාපෘති සහභාගිවන්නන් දැනටමත් පැය 4.3 දහසක් නියම කර ඇති අතර ඉන් 3.5 දහසක් පරීක්ෂා කර ඇත. DeepSpeech සඳහා අවසාන ඉංග්රීසි භාෂා ආකෘතිය පුහුණු කිරීමේදී, LibriSpeech, Fisher සහ Switchboard ව්යාපෘතිවලින් Common Voice ආවරණ දත්තවලට අමතරව, පැය 3816ක පමණ පිටපත් කරන ලද ගුවන්විදුලි සංදර්ශන පටිගත කිරීම් ඇතුළුව පැය 1700 ක කථනය භාවිතා කරන ලදී.
බාගත කිරීම සඳහා ඉදිරිපත් කර ඇති සූදානම් කළ ඉංග්රීසි භාෂා ආකෘතිය භාවිතා කරන විට, පරීක්ෂණ කට්ටලයක් සමඟ තක්සේරු කළ විට DeepSpeech හි හඳුනාගැනීමේ දෝෂ අනුපාතය 7.5% කි.
DeepSpeech උප පද්ධති දෙකකින් සමන්විත වේ - ධ්වනි ආකෘතියක් සහ විකේතකයක්. ධ්වනි ආකෘතිය ආදාන ශබ්දයේ ඇතැම් අක්ෂර තිබීමේ සම්භාවිතාව ගණනය කිරීමට ගැඹුරු යන්ත්ර ඉගෙනීමේ ක්රම භාවිතා කරයි. අක්ෂර සම්භාවිතා දත්ත පෙළ නිරූපණයක් බවට පරිවර්තනය කිරීමට විකේතකය කිරණ සෙවුම් ඇල්ගොරිතමයක් භාවිතා කරයි.
ප්රධාන
- ඉහළ ප්රතිචාරයක් සපයන නව ප්රවාහ විකේතකයක් යෝජනා කර ඇති අතර එය සැකසූ ශ්රව්ය දත්තවල ප්රමාණයෙන් ස්වාධීන වේ. එහි ප්රතිඵලයක් ලෙස, DeepSpeech හි නව අනුවාදය හඳුනාගැනීමේ ප්රමාදය 260 ms දක්වා අඩු කිරීමට සමත් විය, එය පෙරට වඩා 73% වේගවත් වන අතර, DeepSpeech පියාසර කිරීමේදී කථන හඳුනාගැනීමේ විසඳුම් සඳහා භාවිතා කිරීමට ඉඩ සලසයි.
- API වෙත වෙනස්කම් සිදු කර ඇති අතර ශ්රිත නාම ඒකාබද්ධ කිරීමට කටයුතු කර ඇත. සමමුහුර්තකරණය පිළිබඳ අතිරේක පාර-දත්ත ලබා ගැනීම සඳහා කාර්යයන් එකතු කර ඇත, ඔබට ප්රතිදානයක් ලෙස පෙළ නිරූපණයක් ලබා ගැනීමට පමණක් නොව, ශ්රව්ය ප්රවාහයේ ස්ථානයකට තනි අක්ෂර සහ වාක්ය බැඳීම නිරීක්ෂණය කිරීමට ද ඉඩ සලසයි.
- පුහුණු මොඩියුල සඳහා මෙවලම් කට්ටලයට පුස්තකාලය භාවිතා කිරීම සඳහා සහාය එකතු කර ඇත
CuDNN පුනරාවර්තන ස්නායුක ජාල (RNN) සමඟ වැඩ කිරීම ප්රශස්ත කිරීම සඳහා, ආකෘති පුහුණු කාර්ය සාධනයේ සැලකිය යුතු (ආසන්න වශයෙන් දෙගුණයක) වැඩි වීමක් ලබා ගැනීමට හැකි වූ නමුත්, කලින් සකස් කළ ආකෘති සමඟ අනුකූලතාව උල්ලංඝනය කළ කේතයේ වෙනස්කම් අවශ්ය විය. - අවම TensorFlow අනුවාද අවශ්යතා 1.13.1 සිට 1.14.0 දක්වා ඉහළ නංවා ඇත. TensorFlow Lite හි සැහැල්ලු සංස්කරණය සඳහා සහය එක් කරන ලද අතර එමඟින් DeepSpeech පැකේජයේ ප්රමාණය 98 MB සිට 3.7 MB දක්වා අඩු කරයි. කාවැද්දූ සහ ජංගම උපාංගවල භාවිතය සඳහා, ආකෘතිය සමඟ ඇසුරුම් කළ ගොනුවේ ප්රමාණය ද 188 MB සිට 47 MB දක්වා අඩු කර ඇත (ආකෘතිය පුහුණු කිරීමෙන් පසු සම්පීඩනය සඳහා ප්රමාණකරණ ක්රමය භාවිතා කරයි).
- භාෂා ආකෘතිය වෙනස් දත්ත ව්යුහ ආකෘතියකට පරිවර්තනය කර ඇති අතර එමඟින් ගොනු පටවන විට මතකයට සිතියම්ගත කිරීමට ඉඩ සලසයි. පැරණි ආකෘතිය සඳහා සහාය අත්හිටුවා ඇත.
- භාෂා ආකෘතියක් සමඟ ගොනුවක් පැටවීමේ මාදිලිය වෙනස් කර ඇත, එය මතක පරිභෝජනය අඩු කර ඇති අතර ආකෘතිය නිර්මාණය කිරීමෙන් පසු පළමු ඉල්ලීම සැකසීමේදී ප්රමාදයන් අඩු කර ඇත. මෙහෙයුම අතරතුර, DeepSpeech දැන් 22 ගුණයකින් අඩු මතකයක් පරිභෝජනය කරන අතර 500 ගුණයකින් වේගයෙන් ආරම්භ වේ.
- භාෂා ආකෘතියේ දුර්ලභ වචන පෙරා ඇත. ආකෘතිය පුහුණු කිරීම සඳහා භාවිතා කරන ලද පාඨයේ ඇති වඩාත්ම ජනප්රිය වචන 500 දක්වා මුළු වචන ගණන අඩු කරන ලදී. පිරිසිදු කිරීම මඟින් භාෂා ආකෘතියේ ප්රමාණය 1800MB සිට 900MB දක්වා අඩු කිරීමට හැකි විය, හඳුනාගැනීමේ දෝෂ අනුපාතයට ප්රායෝගිකව කිසිදු බලපෑමක් නැත.
- විවිධ සඳහා සහය එක් කරන ලදී
කාර්මික ශිල්පියා පුහුණුවේදී භාවිතා කරන ශ්රව්ය දත්තවල අමතර වෙනස්කම් (වැඩි කිරීම) නිර්මාණය කිරීම (උදාහරණයක් ලෙස, විකල්ප කට්ටලයකට විකෘති කිරීම හෝ ශබ්දය එකතු කිරීම). - .NET වේදිකාව මත පදනම් වූ යෙදුම් සමඟ ඒකාබද්ධ කිරීම සඳහා බන්ධන සහිත පුස්තකාලයක් එක් කරන ලදී.
- ලේඛන නැවත සකස් කර ඇති අතර දැන් එය වෙනම වෙබ් අඩවියක එකතු කර ඇත.
deepspeech.readthedocs.io .
මූලාශ්රය: opennet.ru