NVIDIA Mozilla Common Voice ව්‍යාපෘතිය සඳහා ඩොලර් මිලියන 1.5ක් ආයෝජනය කරයි

NVIDIA විසින් Mozilla Common Voice ව්‍යාපෘතිය සඳහා ඩොලර් මිලියන 1.5ක් ආයෝජනය කරයි. කථන හඳුනාගැනීමේ පද්ධති කෙරෙහි ඇති උනන්දුව, ඉදිරි වසර දහය තුළදී, පරිගණක සහ දුරකථනවල සිට ඩිජිටල් සහායක සහ කියෝස්ක් දක්වා උපාංග සමඟ මිනිසුන් අන්තර්ක්‍රියා කරන ප්‍රධාන මාර්ගයක් බවට හඬ තාක්‍ෂණය පත්වනු ඇතැයි පුරෝකථනය කරයි.

යන්ත්‍ර ඉගෙනුම් ආකෘති පුහුණු කිරීම සඳහා පවතින හඬ දත්ත පරිමාව සහ විවිධත්වය මත හඬ පද්ධතිවල ක්‍රියාකාරීත්වය බෙහෙවින් රඳා පවතී. වර්තමාන හඬ තාක්ෂණය මූලික වශයෙන් ඉංග්‍රීසි භාෂා හඳුනාගැනීම කෙරෙහි අවධානය යොමු කරන අතර භාෂා, උච්චාරණ සහ කථන රටා විශාල පරාසයක් ආවරණය නොකරයි. මෙම ආයෝජනය මගින් මහජන හඬ දත්ත වර්ධනය වේගවත් කිරීමට, වැඩි ප්‍රජාවන් සහ ස්වේච්ඡා සේවකයන් සම්බන්ධ කර ගැනීමට සහ පූර්ණ කාලීන ව්‍යාපෘති කාර්ය මණ්ඩල සංඛ්‍යාව පුළුල් කිරීමට උපකාරී වනු ඇත.

කටහඬ සහ කථන ශෛලීන්ගේ විවිධත්වය සැලකිල්ලට ගන්නා හඬ රටා දත්ත සමුදායක් රැස් කිරීම සඳහා ඒකාබද්ධ වැඩ සංවිධානය කිරීම පොදු හඬ ව්‍යාපෘතියේ අරමුණ බව අපි ඔබට මතක් කරමු. තිරයේ දිස්වන හඬ වාක්‍ය ඛණ්ඩ වෙත පරිශීලකයින්ට ආරාධනා කරනු ලැබේ හෝ වෙනත් පරිශීලකයින් විසින් එකතු කරන ලද දත්තවල ගුණාත්මකභාවය ඇගයීමට ලක් කෙරේ. මිනිස් කථනයේ සාමාන්‍ය වාක්‍ය ඛණ්ඩවල විවිධ උච්චාරණ වාර්තා සහිත සමුච්චිත දත්ත සමුදාය යන්ත්‍ර ඉගෙනුම් පද්ධතිවල සහ පර්යේෂණ ව්‍යාපෘතිවල සීමාවකින් තොරව භාවිතා කළ හැකිය.

පොදු හඬ කට්ටලයට දැනට 164 කට අධික පුද්ගලයන්ගෙන් උච්චාරණ උදාහරණ ඇතුළත් වේ. විවිධ භාෂා 9කින් පැය 60ක පමණ කටහඬ දත්ත රැස් කර ඇත. රුසියානු භාෂාව සඳහා කට්ටලය සහභාගිවන්නන් 1412 ක් සහ පැය 111 ක කථන ද්රව්ය ආවරණය කරයි, සහ යුක්රේන භාෂාව සඳහා - 459 සහභාගිවන්නන් සහ පැය 30 ක්. සංසන්දනය කිරීම සඳහා, 66 කට වැඩි පිරිසක් ඉංග්‍රීසි භාෂාවෙන් ද්‍රව්‍ය සැකසීමට සහභාගී වූ අතර, පැය 1686 ක සත්‍යාපිත කථාව නියම කළේය. යෝජිත කට්ටල යන්ත්‍ර ඉගෙනුම් පද්ධතිවල කථන හඳුනාගැනීම් සහ සංශ්ලේෂණ ආකෘති ගොඩනැගීම සඳහා භාවිතා කළ හැක. දත්ත පොදු වසම (CC0) ලෙස ප්‍රකාශයට පත් කෙරේ.

Vosk අඛණ්ඩ කථන හඳුනාගැනීමේ පුස්තකාලයේ කතුවරයාට අනුව, පොදු හඬ කට්ටලයේ අවාසි වන්නේ හඬ ද්රව්යයේ ඒකපාර්ශ්විකත්වයයි (අවුරුදු 20-30 අතර පිරිමින්ගේ ආධිපත්යය සහ කාන්තාවන්ගේ හඬ සමඟ ද්රව්ය නොමැතිකම , ළමුන් සහ වැඩිහිටියන්), ශබ්ද කෝෂයේ විචල්‍යතාවයක් නොමැතිකම (එකම වාක්‍ය ඛණ්ඩවල පුනරාවර්තනය) සහ විකෘති MP3 ආකෘතියේ පටිගත කිරීම් බෙදා හැරීම.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න