Mozilla Common Voice 12.0 Voice Update

200 කට අධික පුද්ගලයන්ගෙන් උච්චාරණ සාම්පල ඇතුළත් කිරීමට Mozilla එහි පොදු හඬ දත්ත කට්ටල යාවත්කාලීන කර ඇත. දත්ත පොදු වසම (CC0) ලෙස ප්‍රකාශයට පත් කෙරේ. යෝජිත කට්ටල යන්ත්‍ර ඉගෙනුම් පද්ධතිවල කථන හඳුනාගැනීම් සහ සංශ්ලේෂණ ආකෘති ගොඩනැගීම සඳහා භාවිතා කළ හැක.

පෙර යාවත්කාලීනයට සාපේක්ෂව, එකතුවේ ඇති කථන ද්‍රව්‍ය පරිමාව කථනයේ පැය 23.8 සිට 25.8 දහස දක්වා වැඩි විය. 88 කට වැඩි පිරිසක් ඉංග්‍රීසි භාෂාවෙන් ද්‍රව්‍ය සැකසීමට සහභාගී වූ අතර, පැය 3161 ක කථනය නියම කළේය (සහභාගීවන්නන් 84 දහසක් සහ පැය 3098 ක් සිටියහ). බෙලාරුසියානු භාෂාව සඳහා වූ කට්ටලය සහභාගිවන්නන් 7903 ක් සහ පැය 1419 ක කථන ද්‍රව්‍ය (සහභාගිවන්නන් 6965 ක් සහ පැය 1217 ක්), රුසියානු - 2815 සහභාගිවන්නන් සහ පැය 229 (සහභාගිවන්නන් 2731 ක් සහ පැය 215 ක් සිටියහ), උස්බෙක් - පැය 2092 සහ 262 කොටස සහභාගිවන්නන් 2025 ක් සහ පැය 258 ක්), යුක්රේන භාෂාව - සහභාගිවන්නන් 780 ක් සහ පැය 87 ක් (සහභාගීවන්නන් 759 ක් සහ පැය 87 ක් සිටියහ).

පොදු හඬ ව්‍යාපෘතියේ අරමුණ වන්නේ කටහඬ සහ කථන ශෛලීන්ගේ විවිධත්වය සැලකිල්ලට ගන්නා හඬ රටා දත්ත සමුදායක් රැස් කිරීම සඳහා ඒකාබද්ධ වැඩ සංවිධානය කිරීමයි. තිරයේ දිස්වන හඬ වාක්‍ය ඛණ්ඩ වෙත පරිශීලකයින්ට ආරාධනා කරනු ලැබේ හෝ වෙනත් පරිශීලකයින් විසින් එකතු කරන ලද දත්තවල ගුණාත්මකභාවය ඇගයීමට ලක් කෙරේ. මිනිස් කථනයේ සාමාන්‍ය වාක්‍ය ඛණ්ඩවල විවිධ උච්චාරණ වාර්තා සහිත සමුච්චිත දත්ත සමුදාය යන්ත්‍ර ඉගෙනුම් පද්ධතිවල සහ පර්යේෂණ ව්‍යාපෘතිවල සීමාවකින් තොරව භාවිතා කළ හැකිය.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න