Mozilla Common Voice 12.0 புதுப்பிப்பு

Mozilla 200 க்கும் மேற்பட்டவர்களிடமிருந்து உச்சரிப்பு மாதிரிகளைச் சேர்க்க அதன் பொதுவான குரல் தரவுத்தொகுப்புகளைப் புதுப்பித்துள்ளது. தரவு பொது டொமைனாக (CC0) வெளியிடப்பட்டது. முன்மொழியப்பட்ட தொகுப்புகள் பேச்சு அங்கீகாரம் மற்றும் தொகுப்பு மாதிரிகளை உருவாக்க இயந்திர கற்றல் அமைப்புகளில் பயன்படுத்தப்படலாம்.

முந்தைய புதுப்பித்தலுடன் ஒப்பிடுகையில், சேகரிப்பில் உள்ள பேச்சுப் பொருட்களின் அளவு 23.8 முதல் 25.8 ஆயிரம் மணிநேர பேச்சுக்கு அதிகரித்துள்ளது. 88 ஆயிரத்துக்கும் மேற்பட்ட மக்கள் ஆங்கிலத்தில் பொருட்களை தயாரிப்பதில் பங்கேற்றனர், 3161 மணிநேர பேச்சு (84 ஆயிரம் பங்கேற்பாளர்கள் மற்றும் 3098 மணிநேரம் இருந்தனர்). பெலாரஷ்ய மொழிக்கான தொகுப்பு 7903 பங்கேற்பாளர்கள் மற்றும் 1419 மணிநேர பேச்சுப் பொருள் (6965 பங்கேற்பாளர்கள் மற்றும் 1217 மணிநேரம்), ரஷ்ய - 2815 பங்கேற்பாளர்கள் மற்றும் 229 மணிநேரம் (2731 பங்கேற்பாளர்கள் மற்றும் 215 மணிநேரம்), உஸ்பெக் - 2092 மணிநேரம் மற்றும் 262 பகுதிகள் 2025 பங்கேற்பாளர்கள் மற்றும் 258 மணிநேரம்), உக்ரேனிய மொழி - 780 பங்கேற்பாளர்கள் மற்றும் 87 மணிநேரம் (759 பங்கேற்பாளர்கள் மற்றும் 87 மணிநேரம் இருந்தனர்).

பொதுவான குரல் திட்டம் குரல் வடிவங்களின் தரவுத்தளத்தைக் குவிப்பதற்கு கூட்டுப் பணிகளை ஒழுங்கமைப்பதை நோக்கமாகக் கொண்டுள்ளது, இது குரல்கள் மற்றும் பேச்சு பாணிகளின் பன்முகத்தன்மையை கணக்கில் எடுத்துக்கொள்கிறது. திரையில் காட்டப்படும் குரல் சொற்றொடர்களுக்கு பயனர்கள் அழைக்கப்படுவார்கள் அல்லது பிற பயனர்கள் சேர்த்த தரவின் தரத்தை மதிப்பிடுவார்கள். மனித பேச்சின் வழக்கமான சொற்றொடர்களின் பல்வேறு உச்சரிப்புகளின் பதிவுகளுடன் திரட்டப்பட்ட தரவுத்தளமானது இயந்திர கற்றல் அமைப்புகளிலும் ஆராய்ச்சி திட்டங்களிலும் கட்டுப்பாடுகள் இல்லாமல் பயன்படுத்தப்படலாம்.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்