Mozilla Common Voice 9.0 புதுப்பிப்பு

Mozilla அதன் பொதுவான குரல் தரவுத்தொகுப்புகளுக்கான புதுப்பிப்பை வெளியிட்டுள்ளது, இதில் கிட்டத்தட்ட 200 பேரின் உச்சரிப்பு மாதிரிகள் அடங்கும். தரவு பொது டொமைனாக (CC0) வெளியிடப்பட்டது. முன்மொழியப்பட்ட தொகுப்புகள் பேச்சு அங்கீகாரம் மற்றும் தொகுப்பு மாதிரிகளை உருவாக்க இயந்திர கற்றல் அமைப்புகளில் பயன்படுத்தப்படலாம்.

முந்தைய புதுப்பித்தலுடன் ஒப்பிடும்போது, ​​சேகரிப்பில் உள்ள பேச்சுப் பொருட்களின் அளவு 10% அதிகரித்துள்ளது - 18.2 முதல் 20.2 ஆயிரம் மணிநேர பேச்சு வரை. ஆதரிக்கப்படும் மொழிகளின் எண்ணிக்கை 87ல் இருந்து 93 ஆக அதிகரித்துள்ளது. 27 மொழிகளில், 100 மணிநேர பேச்சுத் தரவுகள் குவிக்கப்பட்டுள்ளன, மேலும் 9 - 500 மணிநேர பேச்சுத் தரவுகள் குவிந்துள்ளன. 9 மொழிகளுக்கு பெண் பேச்சின் பங்கை குறைந்தது 45% அடைய முடிந்தது.

81 மணிநேர பேச்சு (2953 ஆயிரம் பங்கேற்பாளர்கள் மற்றும் 79 மணிநேரம்) 2886 ஆயிரத்துக்கும் மேற்பட்டோர் ஆங்கிலத்தில் பொருட்களை தயாரிப்பதில் பங்கேற்றனர். பெலாரஷ்ய மொழிக்கான தொகுப்பு 6326 பங்கேற்பாளர்கள் மற்றும் 1054 மணிநேர பேச்சுப் பொருள் (6160 பங்கேற்பாளர்கள் மற்றும் 987 மணிநேரம்), ரஷ்ய - 2585 பங்கேற்பாளர்கள் மற்றும் 201 மணிநேரம் (2452 பங்கேற்பாளர்கள் மற்றும் 193 மணிநேரம்), உஸ்பெக் - 1503 பகுதி 231 மணி நேரம் 1355 பங்கேற்பாளர்கள் மற்றும் 227 மணிநேரம்), உக்ரேனிய மொழி - 696 பங்கேற்பாளர்கள் மற்றும் 79 மணிநேரம் (684 பங்கேற்பாளர்கள் மற்றும் 76 மணிநேரம் இருந்தனர்).

பொதுவான குரல் திட்டம் குரல் வடிவங்களின் தரவுத்தளத்தைக் குவிப்பதற்கு கூட்டுப் பணிகளை ஒழுங்கமைப்பதை நோக்கமாகக் கொண்டுள்ளது, இது குரல்கள் மற்றும் பேச்சு பாணிகளின் பன்முகத்தன்மையை கணக்கில் எடுத்துக்கொள்கிறது. திரையில் காட்டப்படும் குரல் சொற்றொடர்களுக்கு பயனர்கள் அழைக்கப்படுவார்கள் அல்லது பிற பயனர்கள் சேர்த்த தரவின் தரத்தை மதிப்பிடுவார்கள். மனித பேச்சின் வழக்கமான சொற்றொடர்களின் பல்வேறு உச்சரிப்புகளின் பதிவுகளுடன் திரட்டப்பட்ட தரவுத்தளமானது இயந்திர கற்றல் அமைப்புகளிலும் ஆராய்ச்சி திட்டங்களிலும் கட்டுப்பாடுகள் இல்லாமல் பயன்படுத்தப்படலாம்.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்