Mozilla Common Voice 7.0 Voice Update

NVIDIA සහ Mozilla විසින් ඔවුන්ගේ පොදු හඬ දත්ත කට්ටල වෙත යාවත්කාලීනයක් නිකුත් කර ඇති අතර, පුද්ගලයන්ගේ කථන සාම්පල 182ක් ඇතුළත් වන අතර, එය මාස 25කට පෙර සිට 6%කින් ඉහළ ගොස් ඇත. දත්ත පොදු වසම (CC0) ලෙස ප්‍රකාශයට පත් කෙරේ. යෝජිත කට්ටල යන්ත්‍ර ඉගෙනුම් පද්ධතිවල කථන හඳුනාගැනීම් සහ සංශ්ලේෂණ ආකෘති ගොඩනැගීම සඳහා භාවිතා කළ හැක.

පෙර යාවත්කාලීනය හා සසඳන විට, එකතුවේ ඇති කථන ද්‍රව්‍යවල ප්‍රමාණය කථනයේ පැය 9 සිට 13.9 දහස දක්වා වැඩි වී ඇත. පළමු වරට බෙලාරුසියානු, කසකස්, උස්බෙක්, බල්ගේරියානු, ආර්මේනියානු, අසර්බයිජානියානු සහ බෂ්කීර් භාෂා සඳහා සහය දැක්වීම ඇතුළුව සහාය දක්වන භාෂා ගණන 60 සිට 76 දක්වා වැඩි වී ඇත. රුසියානු භාෂාව සඳහා වූ කට්ටලය සහභාගිවන්නන් 2136 ක් සහ පැය 173 ක කථන ද්රව්ය (සහභාගිවන්නන් 1412 ක් සහ පැය 111 ක්) සහ යුක්රේන භාෂාව සඳහා - 615 සහභාගිවන්නන් සහ පැය 66 ක් (සහභාගීවන්නන් 459 ක් සහ පැය 30 ක් සිටියහ).

75 කට වැඩි පිරිසක් ඉංග්‍රීසි භාෂාවෙන් ද්‍රව්‍ය සැකසීමට සහභාගී වූ අතර, පැය 2637 ක තහවුරු කළ කථාව නියම කළේය (සහභාගීවන්නන් 66 දහසක් සහ පැය 1686 ක් සිටියහ). සමුච්චිත දත්ත ප්‍රමාණය අනුව දෙවන ස්ථානයේ සිටින භාෂාව රුවන්ඩාව වන අතර ඒ සඳහා පැය 2260 ක් එකතු කර ඇත. මෙය ජර්මානු (1040), කැටලන් (920) සහ එස්පෙරන්ටෝ (840) වේ. හඬ දත්ත ප්‍රමාණය වඩාත් ගතිකව වැඩි වන අතර තායි භාෂාව (පාදයේ 20 ගුණයකින් වැඩි වීම, පැය 12 සිට 250 දක්වා), ලුගන්ඩා (පැය 8 සිට 80 දක්වා), Esperanto (පැය 100 සිට 840 දක්වා) සහ දෙමළ ( පැය 24 සිට 220 දක්වා).පැය).

Common Voice ව්‍යාපෘතියට එහි සහභාගීත්වයේ කොටසක් ලෙස, NVIDIA විසින් එකතු කරන ලද දත්ත මත පදනම්ව යන්ත්‍ර ඉගෙනුම් පද්ධති සඳහා (PyTorch විසින් සහාය දක්වන) සූදානම් කළ පුහුණු ආකෘති සකස් කරන ලදී. ආකෘති නොමිලේ සහ විවෘත NVIDIA NeMo මෙවලම් කට්ටලයේ කොටසක් ලෙස බෙදා හරිනු ලැබේ, උදාහරණයක් ලෙස, MTS සහ Sberbank හි ස්වයංක්රීය හඬ සේවාවන්හි දැනටමත් භාවිතා කර ඇත. මෙම ආකෘති කථන හඳුනාගැනීම, කථන සංස්ලේෂණය සහ ස්වභාවික භාෂා සැකසුම් පද්ධතිවල භාවිතය සඳහා අදහස් කරන අතර, හඬ-සක්‍රීය සංවාද පද්ධති, පිටපත් කිරීමේ වේදිකා සහ ස්වයංක්‍රීය ඇමතුම් මධ්‍යස්ථාන ගොඩනඟන පර්යේෂකයන්ට ප්‍රයෝජනවත් විය හැකිය. පෙර පැවති ව්‍යාපෘති මෙන් නොව, ප්‍රකාශිත ආකෘතීන් ඉංග්‍රීසි භාෂා හඳුනාගැනීම් වලට සීමා නොවන අතර විවිධ භාෂා, උච්චාරණ සහ කථන ආකාර ආවරණය කරයි.

කටහඬ සහ කථන ශෛලීන්ගේ විවිධත්වය සැලකිල්ලට ගන්නා හඬ රටා දත්ත සමුදායක් රැස් කිරීම සඳහා ඒකාබද්ධ වැඩ සංවිධානය කිරීම පොදු හඬ ව්‍යාපෘතියේ අරමුණ බව අපි ඔබට මතක් කරමු. තිරයේ දිස්වන හඬ වාක්‍ය ඛණ්ඩ වෙත පරිශීලකයින්ට ආරාධනා කරනු ලැබේ හෝ වෙනත් පරිශීලකයින් විසින් එකතු කරන ලද දත්තවල ගුණාත්මකභාවය ඇගයීමට ලක් කෙරේ. මිනිස් කථනයේ සාමාන්‍ය වාක්‍ය ඛණ්ඩවල විවිධ උච්චාරණ වාර්තා සහිත සමුච්චිත දත්ත සමුදාය යන්ත්‍ර ඉගෙනුම් පද්ධතිවල සහ පර්යේෂණ ව්‍යාපෘතිවල සීමාවකින් තොරව භාවිතා කළ හැකිය.

Vosk අඛණ්ඩ කථන හඳුනාගැනීමේ පුස්තකාලයේ කතුවරයාට අනුව, පොදු හඬ කට්ටලයේ අවාසි වන්නේ හඬ ද්රව්යයේ ඒකපාර්ශ්විකත්වයයි (අවුරුදු 20-30 අතර පිරිමින්ගේ ආධිපත්යය සහ කාන්තාවන්ගේ හඬ සමඟ ද්රව්ය නොමැතිකම , ළමුන් සහ වැඩිහිටියන්), ශබ්ද කෝෂයේ විචල්‍යතාවයක් නොමැතිකම (එකම වාක්‍ය ඛණ්ඩවල පුනරාවර්තනය) සහ විකෘති MP3 ආකෘතියේ පටිගත කිරීම් බෙදා හැරීම.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න