விஸ்பர் பேச்சு அங்கீகாரம் மற்றும் மொழிபெயர்ப்பு அமைப்புக்கான குறியீடு திறக்கப்பட்டது

செயற்கை நுண்ணறிவுத் துறையில் பொதுத் திட்டங்களை உருவாக்கும் OpenAI திட்டம், விஸ்பர் பேச்சு அங்கீகார அமைப்பு தொடர்பான வளர்ச்சிகளை வெளியிட்டுள்ளது. ஆங்கிலத்தில் பேசுவதற்கு, கணினி மனித அங்கீகாரத்திற்கு நெருக்கமான தானியங்கி அங்கீகாரத்தின் நம்பகத்தன்மை மற்றும் துல்லியத்தின் நிலைகளை வழங்குகிறது என்று கூறப்படுகிறது. PyTorch கட்டமைப்பின் அடிப்படையிலான குறிப்பு செயலாக்கத்திற்கான குறியீடு மற்றும் ஏற்கனவே பயிற்சியளிக்கப்பட்ட மாதிரிகளின் தொகுப்பு, பயன்படுத்த தயாராக உள்ளது, திறக்கப்பட்டுள்ளது. குறியீடு MIT உரிமத்தின் கீழ் திறக்கப்பட்டுள்ளது.

மாதிரியைப் பயிற்றுவிக்க, 680 ஆயிரம் மணிநேர பேச்சுத் தரவு பயன்படுத்தப்பட்டது, பல்வேறு மொழிகள் மற்றும் பாடப் பகுதிகளை உள்ளடக்கிய பல சேகரிப்புகளிலிருந்து சேகரிக்கப்பட்டது. பயிற்சியில் ஈடுபடும் பேச்சுத் தரவுகளில் சுமார் 1/3 ஆங்கிலம் தவிர வேறு மொழிகளில் உள்ளது. முன்மொழியப்பட்ட அமைப்பு, உச்சரிப்பு உச்சரிப்பு, பின்னணி இரைச்சல் மற்றும் தொழில்நுட்ப வாசகங்களின் பயன்பாடு போன்ற சூழ்நிலைகளை சரியாகக் கையாளுகிறது. பேச்சை உரையாக மாற்றுவதைத் தவிர, கணினி எந்த மொழியிலிருந்தும் பேச்சை ஆங்கிலத்தில் மொழிபெயர்க்கலாம் மற்றும் ஆடியோ ஸ்ட்ரீமில் பேச்சின் தோற்றத்தைக் கண்டறியலாம்.

மாதிரிகள் இரண்டு பிரதிநிதித்துவங்களில் உருவாக்கப்படுகின்றன: ஆங்கில மொழிக்கான மாதிரி மற்றும் ஒரு பன்மொழி மாதிரி, இது ரஷ்ய, உக்ரேனிய மற்றும் பெலாரஷ்ய மொழிகளையும் ஆதரிக்கிறது. இதையொட்டி, ஒவ்வொரு பிரதிநிதித்துவமும் 5 விருப்பங்களாக பிரிக்கப்பட்டுள்ளது, இது மாதிரியில் உள்ள அளவுருக்களின் அளவு மற்றும் எண்ணிக்கையில் வேறுபடுகிறது. பெரிய அளவு, அதிக துல்லியம் மற்றும் அங்கீகாரத்தின் தரம், ஆனால் GPU வீடியோ நினைவகத்தின் அளவு மற்றும் குறைந்த செயல்திறன் ஆகியவற்றிற்கான அதிக தேவைகள். எடுத்துக்காட்டாக, குறைந்தபட்ச விருப்பமானது 39 மில்லியன் அளவுருக்களை உள்ளடக்கியது மற்றும் 1 ஜிபி வீடியோ நினைவகம் தேவைப்படுகிறது, மேலும் அதிகபட்சமாக 1550 மில்லியன் அளவுருக்கள் மற்றும் 10 ஜிபி வீடியோ நினைவகம் தேவைப்படுகிறது. குறைந்தபட்ச விருப்பம் அதிகபட்சத்தை விட 32 மடங்கு வேகமாக உள்ளது.

விஸ்பர் பேச்சு அங்கீகாரம் மற்றும் மொழிபெயர்ப்பு அமைப்புக்கான குறியீடு திறக்கப்பட்டது

இந்த அமைப்பு டிரான்ஸ்ஃபார்மர் நியூரல் நெட்வொர்க் கட்டமைப்பைப் பயன்படுத்துகிறது, இதில் ஒரு குறியாக்கி மற்றும் குறிவிலக்கி ஒன்றுடன் ஒன்று தொடர்பு கொள்கிறது. ஆடியோ 30-வினாடி துகள்களாக உடைக்கப்படுகிறது, அவை லாக்-மெல் ஸ்பெக்ட்ரோகிராமாக மாற்றப்பட்டு குறியாக்கிக்கு அனுப்பப்படும். குறியாக்கியின் வெளியீடு டிகோடருக்கு அனுப்பப்படுகிறது, இது சிறப்பு டோக்கன்களுடன் கலந்த உரைப் பிரதிநிதித்துவத்தை முன்னறிவிக்கிறது, இது ஒரு பொதுவான மாதிரியில், மொழியைக் கண்டறிதல், சொற்றொடர்களின் உச்சரிப்பின் காலவரிசையைக் கணக்கிடுதல், பேச்சின் படியெடுத்தல் போன்ற சிக்கல்களைத் தீர்க்க அனுமதிக்கிறது. வெவ்வேறு மொழிகள் மற்றும் ஆங்கிலத்தில் மொழிபெயர்ப்பு.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்