Mozilla Common Voice 8.0 புதுப்பிப்பு

Mozilla அதன் பொதுவான குரல் தரவுத்தொகுப்புகளுக்கான புதுப்பிப்பை வெளியிட்டுள்ளது, இதில் கிட்டத்தட்ட 200 பேரின் உச்சரிப்பு மாதிரிகள் அடங்கும். தரவு பொது டொமைனாக (CC0) வெளியிடப்பட்டது. முன்மொழியப்பட்ட தொகுப்புகள் பேச்சு அங்கீகாரம் மற்றும் தொகுப்பு மாதிரிகளை உருவாக்க இயந்திர கற்றல் அமைப்புகளில் பயன்படுத்தப்படலாம். முந்தைய புதுப்பித்தலுடன் ஒப்பிடுகையில், சேகரிப்பில் உள்ள பேச்சுப் பொருட்களின் அளவு 30% அதிகரித்துள்ளது - 13.9 முதல் 18.2 ஆயிரம் மணிநேர பேச்சு வரை. ஆதரிக்கப்படும் மொழிகளின் எண்ணிக்கை 67ல் இருந்து 87 ஆக அதிகரித்துள்ளது.

ரஷ்ய மொழிக்கான தொகுப்பு 2452 பங்கேற்பாளர்கள் மற்றும் 193 மணிநேர பேச்சுப் பொருள் (2136 பங்கேற்பாளர்கள் மற்றும் 173 மணிநேரம்), பெலாரஷ்ய மொழிக்கு - 6160 பங்கேற்பாளர்கள் மற்றும் 987 மணிநேரம் (3831 பங்கேற்பாளர்கள் மற்றும் 356 மணிநேரம்), உக்ரேனிய மொழிக்கு - 684 பங்கேற்பாளர்கள் மற்றும் 76 மணிநேரம் (615 பங்கேற்பாளர்கள் மற்றும் 66 மணிநேரம்). 79 ஆயிரத்துக்கும் மேற்பட்ட மக்கள் ஆங்கிலத்தில் பொருட்களைத் தயாரிப்பதில் பங்கேற்றனர், 2886 மணிநேர உறுதிப்படுத்தப்பட்ட பேச்சைக் கட்டளையிட்டனர் (75 ஆயிரம் பங்கேற்பாளர்கள் மற்றும் 2637 மணிநேரம் இருந்தனர்).

பொதுவான குரல் திட்டமானது குரல் வடிவங்களின் தரவுத்தளத்தைக் குவிப்பதற்கு கூட்டுப் பணியை ஒழுங்கமைப்பதை நோக்கமாகக் கொண்டுள்ளது என்பதை நினைவூட்டுகிறோம், இது குரல்கள் மற்றும் பேச்சு பாணிகளின் பன்முகத்தன்மையை கணக்கில் எடுத்துக்கொள்கிறது. திரையில் காட்டப்படும் குரல் சொற்றொடர்களுக்கு பயனர்கள் அழைக்கப்படுவார்கள் அல்லது பிற பயனர்கள் சேர்த்த தரவின் தரத்தை மதிப்பிடுவார்கள். மனித பேச்சின் பொதுவான சொற்றொடர்களின் பல்வேறு உச்சரிப்புகளின் பதிவுகளுடன் திரட்டப்பட்ட தரவுத்தளமானது இயந்திர கற்றல் அமைப்புகளிலும் ஆராய்ச்சி திட்டங்களிலும் கட்டுப்பாடுகள் இல்லாமல் பயன்படுத்தப்படலாம். வோஸ்க் தொடர்ச்சியான பேச்சு அங்கீகார நூலகத்தின் ஆசிரியரின் கூற்றுப்படி, பொதுவான குரல் தொகுப்பின் தீமைகள் குரல் பொருளின் ஒருதலைப்பட்சம் (20-30 வயதுடைய ஆண்களின் ஆதிக்கம் மற்றும் பெண்களின் குரல்களுடன் பொருள் இல்லாமை , குழந்தைகள் மற்றும் முதியவர்கள்), அகராதியில் மாறுபாடு இல்லாமை (அதே சொற்றொடர்களை மீண்டும் மீண்டும்) மற்றும் சிதைக்கும் MP3 வடிவத்தில் பதிவுகளின் விநியோகம்.

கூடுதலாக, NVIDIA NeMo 1.6 கருவித்தொகுப்பின் வெளியீட்டை நாம் கவனிக்க முடியும், இது பேச்சு அங்கீகார அமைப்புகள், பேச்சு தொகுப்பு மற்றும் இயற்கை மொழி செயலாக்கத்தை உருவாக்குவதற்கான இயந்திர கற்றல் முறைகளை வழங்குகிறது. பைடார்ச் கட்டமைப்பின் அடிப்படையிலான இயந்திர கற்றல் அமைப்புகளுக்கான பயிற்சியளிக்கப்பட்ட மாதிரிகளை NeMo கொண்டுள்ளது, இது பொதுவான குரல் பேச்சுத் தரவைப் பயன்படுத்தி NVIDIA ஆல் தயாரிக்கப்பட்டது மற்றும் பல்வேறு மொழிகள், உச்சரிப்புகள் மற்றும் பேச்சு வடிவங்களை உள்ளடக்கியது. குரல் அடிப்படையிலான உரையாடல் அமைப்புகள், டிரான்ஸ்கிரிப்ஷன் இயங்குதளங்கள் மற்றும் தானியங்கு அழைப்பு மையங்களை உருவாக்கும் ஆராய்ச்சியாளர்களுக்கு இந்த மாதிரிகள் பயனுள்ளதாக இருக்கும். எடுத்துக்காட்டாக, MTS மற்றும் Sberbank இன் தானியங்கி குரல் சேவைகளில் NVIDIA NeMo பயன்படுத்தப்படுகிறது. NeMo குறியீடு PyTorch ஐப் பயன்படுத்தி பைத்தானில் எழுதப்பட்டு Apache 2.0 உரிமத்தின் கீழ் விநியோகிக்கப்படுகிறது.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்