Mozilla Common Voice 9.0 Voice Update

Mozilla විසින් 200 කට ආසන්න පුද්ගලයන්ගේ උච්චාරණ සාම්පල ඇතුළත් එහි Common Voice දත්ත කට්ටල වෙත යාවත්කාලීනයක් නිකුත් කර ඇත. දත්ත පොදු වසම (CC0) ලෙස ප්‍රකාශයට පත් කෙරේ. යෝජිත කට්ටල යන්ත්‍ර ඉගෙනුම් පද්ධතිවල කථන හඳුනාගැනීම් සහ සංශ්ලේෂණ ආකෘති ගොඩනැගීම සඳහා භාවිතා කළ හැක.

පෙර යාවත්කාලීන හා සසඳන විට, එකතුවේ ඇති කථන ද්‍රව්‍ය පරිමාව 10% කින් වැඩි විය - පැය 18.2 සිට 20.2 දහසක් දක්වා. සහාය දක්වන භාෂා සංඛ්‍යාව 87 සිට 93 දක්වා වැඩි වී ඇත. භාෂා 27ක් සඳහා පැය 100කට වැඩි කථන දත්ත රැස් කර ඇති අතර, 9 සඳහා - පැය 500කට වඩා වැඩි කථන දත්ත රැස් කර ඇත. භාෂා 9 ක් සඳහා අවම වශයෙන් 45% ක කාන්තා කථාවක් ලබා ගැනීමට ද හැකි විය.

81 කට වැඩි පිරිසක් ඉංග්‍රීසි භාෂාවෙන් ද්‍රව්‍ය සැකසීමට සහභාගී වූ අතර, පැය 2953 ක කථාව නියම කළේය (සහභාගීවන්නන් 79 දහසක් සහ පැය 2886 ක් සිටියහ). බෙලාරුසියානු භාෂාව සඳහා වූ කට්ටලය සහභාගිවන්නන් 6326 ක් සහ පැය 1054 ක කථන ද්‍රව්‍ය (සහභාගිවන්නන් 6160 ක් සහ පැය 987 ක්), රුසියානු - 2585 සහභාගිවන්නන් සහ පැය 201 ක් (සහභාගිවන්නන් 2452 ක් සහ පැය 193 ක් සිටියහ), උස්බෙක් - පැය 1503 යි. සහභාගිවන්නන් 231 ක් සහ පැය 1355 ක්), යුක්රේන භාෂාව - සහභාගිවන්නන් 227 ක් සහ පැය 696 ක් (සහභාගීවන්නන් 79 ක් සහ පැය 684 ක් සිටියහ).

පොදු හඬ ව්‍යාපෘතියේ අරමුණ වන්නේ කටහඬ සහ කථන ශෛලීන්ගේ විවිධත්වය සැලකිල්ලට ගන්නා හඬ රටා දත්ත සමුදායක් රැස් කිරීම සඳහා ඒකාබද්ධ වැඩ සංවිධානය කිරීමයි. තිරයේ දිස්වන හඬ වාක්‍ය ඛණ්ඩ වෙත පරිශීලකයින්ට ආරාධනා කරනු ලැබේ හෝ වෙනත් පරිශීලකයින් විසින් එකතු කරන ලද දත්තවල ගුණාත්මකභාවය ඇගයීමට ලක් කෙරේ. මිනිස් කථනයේ සාමාන්‍ය වාක්‍ය ඛණ්ඩවල විවිධ උච්චාරණ වාර්තා සහිත සමුච්චිත දත්ත සමුදාය යන්ත්‍ර ඉගෙනුම් පද්ධතිවල සහ පර්යේෂණ ව්‍යාපෘතිවල සීමාවකින් තොරව භාවිතා කළ හැකිය.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න