Mozilla Common Voice 7.0 புதுப்பிப்பு

NVIDIA மற்றும் Mozilla ஆகியவை 182 நபர்களின் பேச்சு மாதிரிகளை உள்ளடக்கிய பொதுவான குரல் தரவுத்தொகுப்புகளுக்கான புதுப்பிப்பை வெளியிட்டன, இது 25 மாதங்களுக்கு முன்பு இருந்ததை விட 6% அதிகமாகும். தரவு பொது டொமைனாக (CC0) வெளியிடப்பட்டது. முன்மொழியப்பட்ட தொகுப்புகள் பேச்சு அங்கீகாரம் மற்றும் தொகுப்பு மாதிரிகளை உருவாக்க இயந்திர கற்றல் அமைப்புகளில் பயன்படுத்தப்படலாம்.

முந்தைய புதுப்பித்தலுடன் ஒப்பிடுகையில், சேகரிப்பில் உள்ள பேச்சுப் பொருளின் அளவு 9 முதல் 13.9 ஆயிரம் மணிநேர பேச்சு வரை அதிகரித்துள்ளது. ஆதரிக்கப்படும் மொழிகளின் எண்ணிக்கை 60 இலிருந்து 76 ஆக அதிகரித்துள்ளது, இதில் முதல் முறையாக பெலாரஷ்யன், கசாக், உஸ்பெக், பல்கேரியன், ஆர்மேனியன், அஜர்பைஜான் மற்றும் பாஷ்கிர் மொழிகளுக்கான ஆதரவு உள்ளது. ரஷ்ய மொழிக்கான தொகுப்பு 2136 பங்கேற்பாளர்கள் மற்றும் 173 மணிநேர பேச்சுப் பொருள் (1412 பங்கேற்பாளர்கள் மற்றும் 111 மணிநேரம்) மற்றும் உக்ரேனிய மொழிக்கு - 615 பங்கேற்பாளர்கள் மற்றும் 66 மணிநேரம் (459 பங்கேற்பாளர்கள் மற்றும் 30 மணிநேரம் இருந்தனர்).

75 ஆயிரத்துக்கும் மேற்பட்ட மக்கள் ஆங்கிலத்தில் பொருட்களைத் தயாரிப்பதில் பங்கேற்றனர், 2637 மணிநேர உறுதிப்படுத்தப்பட்ட பேச்சைக் கட்டளையிட்டனர் (66 ஆயிரம் பங்கேற்பாளர்கள் மற்றும் 1686 மணிநேரம் இருந்தனர்). சுவாரஸ்யமாக, திரட்டப்பட்ட தரவுகளின் அளவின் அடிப்படையில் இரண்டாவது இடத்தில் உள்ள மொழி ருவாண்டா ஆகும், இதற்காக 2260 மணிநேரம் சேகரிக்கப்பட்டுள்ளது. இதைத் தொடர்ந்து ஜெர்மன் (1040), கேட்டலான் (920) மற்றும் எஸ்பெராண்டோ (840) ஆகிய நாடுகள் உள்ளன. குரல் தரவின் அளவு மிகவும் மாறும் வகையில் அதிகரித்து வரும் தாய் மொழி (அடிப்படையில் 20 மடங்கு அதிகரிப்பு, 12 முதல் 250 மணிநேரம் வரை), லுகாண்டா (8 முதல் 80 மணிநேரம் வரை), எஸ்பரான்டோ (100 முதல் 840 மணிநேரம் வரை) மற்றும் தமிழ் ( 24 முதல் 220 மணி வரை). மணிநேரம்).

காமன் வாய்ஸ் திட்டத்தில் பங்கேற்பதன் ஒரு பகுதியாக, சேகரிக்கப்பட்ட தரவுகளின் அடிப்படையில் இயந்திர கற்றல் அமைப்புகளுக்கு (PyTorch ஆல் ஆதரிக்கப்படும்) ஆயத்த பயிற்சியளிக்கப்பட்ட மாதிரிகளை NVIDIA தயாரித்தது. மாதிரிகள் இலவச மற்றும் திறந்த NVIDIA NeMo கருவித்தொகுப்பின் ஒரு பகுதியாக விநியோகிக்கப்படுகின்றன, எடுத்துக்காட்டாக, MTS மற்றும் Sberbank இன் தானியங்கி குரல் சேவைகளில் ஏற்கனவே பயன்படுத்தப்படுகிறது. இந்த மாதிரிகள் பேச்சு அங்கீகாரம், பேச்சு தொகுப்பு மற்றும் இயற்கையான மொழி செயலாக்க அமைப்புகளில் பயன்படுத்த வடிவமைக்கப்பட்டுள்ளது, மேலும் குரல்-செயல்படுத்தப்பட்ட உரையாடல் அமைப்புகள், டிரான்ஸ்கிரிப்ஷன் தளங்கள் மற்றும் தானியங்கு அழைப்பு மையங்களை உருவாக்கும் ஆராய்ச்சியாளர்களுக்கு பயனுள்ளதாக இருக்கும். முன்னர் கிடைக்கக்கூடிய திட்டங்களைப் போலன்றி, வெளியிடப்பட்ட மாதிரிகள் ஆங்கில மொழி அங்கீகாரத்துடன் மட்டுப்படுத்தப்படவில்லை மற்றும் பல்வேறு மொழிகள், உச்சரிப்புகள் மற்றும் பேச்சு வடிவங்களை உள்ளடக்கியது.

பொதுவான குரல் திட்டமானது குரல் வடிவங்களின் தரவுத்தளத்தைக் குவிப்பதற்கு கூட்டுப் பணியை ஒழுங்கமைப்பதை நோக்கமாகக் கொண்டுள்ளது என்பதை நினைவூட்டுகிறோம், இது குரல்கள் மற்றும் பேச்சு பாணிகளின் பன்முகத்தன்மையை கணக்கில் எடுத்துக்கொள்கிறது. திரையில் காட்டப்படும் குரல் சொற்றொடர்களுக்கு பயனர்கள் அழைக்கப்படுவார்கள் அல்லது பிற பயனர்கள் சேர்த்த தரவின் தரத்தை மதிப்பிடுவார்கள். மனித பேச்சின் பொதுவான சொற்றொடர்களின் பல்வேறு உச்சரிப்புகளின் பதிவுகளுடன் திரட்டப்பட்ட தரவுத்தளமானது இயந்திர கற்றல் அமைப்புகளிலும் ஆராய்ச்சி திட்டங்களிலும் கட்டுப்பாடுகள் இல்லாமல் பயன்படுத்தப்படலாம்.

வோஸ்க் தொடர்ச்சியான பேச்சு அங்கீகார நூலகத்தின் ஆசிரியரின் கூற்றுப்படி, பொதுவான குரல் தொகுப்பின் தீமைகள் குரல் பொருளின் ஒருதலைப்பட்சம் (20-30 வயதுடைய ஆண்களின் ஆதிக்கம் மற்றும் பெண்களின் குரல்களுடன் பொருள் இல்லாமை , குழந்தைகள் மற்றும் முதியவர்கள்), அகராதியில் மாறுபாடு இல்லாமை (அதே சொற்றொடர்களை மீண்டும் மீண்டும்) மற்றும் சிதைக்கும் MP3 வடிவத்தில் பதிவுகளின் விநியோகம்.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்