Mozilla DeepSpeech 0.6 என்ற பேச்சு அங்கீகார இயந்திரத்தை அறிமுகப்படுத்தியது

மூலம் சமர்ப்பிக்கப்பட்டது Mozilla உருவாக்கிய பேச்சு அங்கீகார இயந்திரத்தின் வெளியீடு டீப்ஸ்பீச் 0.6, அதே பெயரில் பேச்சு அங்கீகார கட்டமைப்பை செயல்படுத்துகிறது, முன்மொழியப்பட்டது Baidu ஆராய்ச்சியாளர்களால். செயல்படுத்தல் டென்சர்ஃப்ளோ இயந்திர கற்றல் தளத்தைப் பயன்படுத்தி பைத்தானில் எழுதப்பட்டுள்ளது வழங்கியது இலவச MPL 2.0 உரிமத்தின் கீழ். லினக்ஸ், ஆண்ட்ராய்டு, மேகோஸ் மற்றும் விண்டோஸில் வேலை செய்வதை ஆதரிக்கிறது. LePotato, Raspberry Pi 3 மற்றும் Raspberry Pi 4 பலகைகளில் இயந்திரத்தைப் பயன்படுத்த செயல்திறன் போதுமானது.

தொகுப்பிலும் சேர்க்கப்பட்டுள்ளது வழங்கப்படுகின்றன பயிற்சி பெற்ற மாதிரிகள், உதாரணங்கள் கட்டளை வரியிலிருந்து ஒலி கோப்புகள் மற்றும் அங்கீகார கருவிகள். உங்கள் நிரல்களில் பேச்சு அறிதல் செயல்பாட்டை ஒருங்கிணைக்க, பைதான், NodeJS, C++ மற்றும் .NET க்கான பயன்படுத்த தயாராக உள்ள தொகுதிகள் வழங்கப்படுகின்றன (மூன்றாம் தரப்பு டெவலப்பர்கள் தனித்தனியாக மாட்யூல்களைத் தயாரித்துள்ளனர். துரு и Go) முடிக்கப்பட்ட மாதிரி ஆங்கிலத்திற்கு மட்டுமே வழங்கப்படுகிறது, ஆனால் மற்ற மொழிகளுக்கு இணைக்கப்பட்ட அறிவுறுத்தல்கள் நீங்கள் பயன்படுத்தி கணினியை நீங்களே பயிற்சி செய்யலாம் குரல் தரவு, பொது குரல் திட்டத்தால் சேகரிக்கப்பட்டது.

DeepSpeech பாரம்பரிய அமைப்புகளை விட மிகவும் எளிமையானது மற்றும் அதே நேரத்தில் வெளிப்புற சத்தம் முன்னிலையில் உயர் தர அங்கீகாரத்தை வழங்குகிறது. சத்தம், எதிரொலி மற்றும் பேச்சு அம்சங்கள் போன்ற பல்வேறு அசாதாரணங்களை மாதிரியாக்குவதற்கு தனித்தனி கூறுகளை உருவாக்கும் தேவையை நீக்கும் மிகவும் உகந்த நரம்பியல் நெட்வொர்க் அடிப்படையிலான இயந்திர கற்றல் முறையைப் பயன்படுத்துவதற்குப் பதிலாக, பாரம்பரிய ஒலியியல் மாதிரிகள் மற்றும் ஃபோன்மேம்களின் கருத்தை இது புறக்கணிக்கிறது.

இந்த அணுகுமுறையின் தீமை என்னவென்றால், ஒரு நரம்பியல் வலையமைப்பின் உயர்தர அங்கீகாரம் மற்றும் பயிற்சியைப் பெற, டீப்ஸ்பீச் இயந்திரத்திற்கு ஒரு பெரிய அளவிலான பன்முகத் தரவு தேவைப்படுகிறது, இது பல்வேறு குரல்கள் மற்றும் இயற்கையான இரைச்சல் முன்னிலையில் உண்மையான நிலைமைகளில் கட்டளையிடப்படுகிறது.
Mozilla இல் உருவாக்கப்பட்ட ஒரு திட்டம் அத்தகைய தரவுகளை சேகரிக்கிறது. பொதுவான குரல், 780 மணிநேரத்துடன் சரிபார்க்கப்பட்ட தரவுத்தொகுப்பை வழங்குகிறது ஆங்கில மொழி, ஜெர்மன் மொழியில் 325, பிரெஞ்சு மொழியில் 173 மற்றும் ரஷ்ய மொழியில் 27 மணிநேரம்.

பொதுவான குரல் திட்டத்தின் இறுதி குறிக்கோள், மனித பேச்சின் பொதுவான சொற்றொடர்களின் பல்வேறு உச்சரிப்புகளின் 10 ஆயிரம் மணிநேர பதிவுகளை குவிப்பதாகும், இது அங்கீகாரத்தில் ஏற்றுக்கொள்ளக்கூடிய அளவிலான பிழைகளை அடைய அனுமதிக்கும். அதன் தற்போதைய வடிவத்தில், திட்ட பங்கேற்பாளர்கள் ஏற்கனவே மொத்தம் 4.3 ஆயிரம் மணிநேரங்களை ஆணையிட்டுள்ளனர், அதில் 3.5 ஆயிரம் சோதனை செய்யப்பட்டுள்ளது. DeepSpeech க்கான இறுதி ஆங்கில மொழி மாதிரியைப் பயிற்றுவிக்கும் போது, ​​LibriSpeech, Fisher மற்றும் Switchboard திட்டங்களில் இருந்து பொதுவான குரல் உள்ளடக்கிய தரவுகளுடன் கூடுதலாக 3816 மணிநேர பேச்சு பயன்படுத்தப்பட்டது, மேலும் 1700 மணிநேர டிரான்ஸ்கிரிப்ட் செய்யப்பட்ட ரேடியோ நிகழ்ச்சி பதிவுகளும் அடங்கும்.

பதிவிறக்கத்திற்காக வழங்கப்படும் ஆயத்த ஆங்கில மொழி மாதிரியைப் பயன்படுத்தும் போது, ​​DeepSpeech இல் உள்ள அங்கீகாரப் பிழை விகிதம் 7.5% ஆகும். லிப்ரிஸ்பீச். ஒப்பிடுகையில், மனித அங்கீகாரத்திற்கான பிழை விகிதம் மதிப்பிடப்பட்டுள்ளது 5.83% இல்.

டீப்ஸ்பீச் இரண்டு துணை அமைப்புகளைக் கொண்டுள்ளது - ஒரு ஒலி மாதிரி மற்றும் ஒரு குறிவிலக்கி. உள்ளீட்டு ஒலியில் சில எழுத்துக்கள் இருப்பதற்கான சாத்தியக்கூறுகளைக் கணக்கிட ஒலியியல் மாதிரியானது ஆழ்ந்த இயந்திர கற்றல் முறைகளைப் பயன்படுத்துகிறது. டிகோடர் எழுத்து நிகழ்தகவு தரவை உரை பிரதிநிதித்துவமாக மாற்ற கதிர் தேடல் அல்காரிதத்தைப் பயன்படுத்துகிறது.

முக்கிய புதுமைகள் DeepSpeech 0.6 (0.6 கிளை முந்தைய வெளியீடுகளுடன் இணக்கமாக இல்லை மற்றும் குறியீடு மற்றும் மாதிரி புதுப்பிப்புகள் தேவை):

  • ஒரு புதிய ஸ்ட்ரீமிங் டிகோடர் முன்மொழியப்பட்டது, இது அதிக வினைத்திறனை வழங்குகிறது மற்றும் செயலாக்கப்பட்ட ஆடியோ தரவின் அளவைப் பொருட்படுத்தாது. இதன் விளைவாக, DeepSpeech இன் புதிய பதிப்பு, அங்கீகாரத்திற்கான தாமதத்தை 260 ms ஆகக் குறைக்க முடிந்தது, இது முன்பை விட 73% வேகமானது, மேலும் DeepSpeech ஐ பறக்கும்போது பேச்சு அங்கீகார தீர்வுகளில் பயன்படுத்த அனுமதிக்கிறது.
  • API இல் மாற்றங்கள் செய்யப்பட்டு, செயல்பாட்டு பெயர்களை ஒருங்கிணைக்கும் பணி செய்யப்பட்டுள்ளது. ஒத்திசைவு பற்றிய கூடுதல் மெட்டாடேட்டாவைப் பெற செயல்பாடுகள் சேர்க்கப்பட்டுள்ளன, இது ஒரு உரைப் பிரதிநிதித்துவத்தை வெளியீட்டாகப் பெறுவது மட்டுமல்லாமல், ஆடியோ ஸ்ட்ரீமில் ஒரு நிலைக்கு தனிப்பட்ட எழுத்துகள் மற்றும் வாக்கியங்களின் பிணைப்பைக் கண்காணிக்கவும் அனுமதிக்கிறது.
  • பயிற்சி தொகுதிகளுக்கான கருவித்தொகுப்பில் நூலகத்தைப் பயன்படுத்துவதற்கான ஆதரவு சேர்க்கப்பட்டுள்ளது CuDNN தொடர்ச்சியான நரம்பியல் நெட்வொர்க்குகளுடன் (RNN) பணியை மேம்படுத்த, இது மாதிரி பயிற்சி செயல்திறனில் குறிப்பிடத்தக்க (தோராயமாக இருமடங்கு) அதிகரிப்பை அடைய முடிந்தது, ஆனால் முன்னர் தயாரிக்கப்பட்ட மாதிரிகளுடன் இணக்கத்தை மீறும் குறியீட்டில் மாற்றங்கள் தேவைப்பட்டன.
  • குறைந்தபட்ச TensorFlow பதிப்பு தேவைகள் 1.13.1 இலிருந்து 1.14.0 ஆக உயர்த்தப்பட்டுள்ளன. டென்சர்ஃப்ளோ லைட்டின் இலகுரக பதிப்பிற்கான ஆதரவு சேர்க்கப்பட்டது, இது டீப்ஸ்பீச் தொகுப்பின் அளவை 98 எம்பியில் இருந்து 3.7 எம்பியாக குறைக்கிறது. உட்பொதிக்கப்பட்ட மற்றும் மொபைல் சாதனங்களில் பயன்படுத்த, மாடலுடன் பேக் செய்யப்பட்ட கோப்பின் அளவும் 188 MB இலிருந்து 47 MB ​​ஆகக் குறைக்கப்பட்டுள்ளது (மாதிரி பயிற்சி பெற்ற பிறகு சுருக்குவதற்கு அளவீட்டு முறை பயன்படுத்தப்படுகிறது).
  • மொழி மாதிரியானது வேறுபட்ட தரவு கட்டமைப்பு வடிவத்திற்கு மொழிபெயர்க்கப்பட்டுள்ளது, இது கோப்புகளை ஏற்றும்போது நினைவகத்தில் வரைபடமாக்க அனுமதிக்கிறது. பழைய வடிவத்திற்கான ஆதரவு நிறுத்தப்பட்டது.
  • மொழி மாதிரியுடன் ஒரு கோப்பை ஏற்றும் முறை மாற்றப்பட்டது, இது நினைவக நுகர்வு குறைக்கப்பட்டது மற்றும் மாதிரியை உருவாக்கிய பிறகு முதல் கோரிக்கையைச் செயலாக்கும்போது தாமதங்களைக் குறைக்கிறது. செயல்பாட்டின் போது, ​​DeepSpeech இப்போது 22 மடங்கு குறைவான நினைவகத்தைப் பயன்படுத்துகிறது மற்றும் 500 மடங்கு வேகமாகத் தொடங்குகிறது.

    Mozilla DeepSpeech 0.6 என்ற பேச்சு அங்கீகார இயந்திரத்தை அறிமுகப்படுத்தியது

  • மொழி மாதிரியில் அரிய சொற்கள் வடிகட்டப்பட்டன. மாதிரியைப் பயிற்றுவிப்பதற்குப் பயன்படுத்தப்படும் உரையில் காணப்படும் மிகவும் பிரபலமான சொற்களின் மொத்த எண்ணிக்கை 500 ஆயிரமாக குறைக்கப்பட்டது. துப்புரவு என்பது மொழி மாதிரியின் அளவை 1800MB இலிருந்து 900MB ஆகக் குறைப்பதை சாத்தியமாக்கியது.
  • பல்வேறு ஆதரவு சேர்க்கப்பட்டது தொழில்நுட்ப பயிற்சியில் பயன்படுத்தப்படும் ஆடியோ தரவின் கூடுதல் மாறுபாடுகளை உருவாக்குதல் (உதாரணமாக, விருப்பங்களின் தொகுப்பில் விலகல் அல்லது சத்தம் சேர்த்தல்).
  • .NET இயங்குதளத்தை அடிப்படையாகக் கொண்ட பயன்பாடுகளுடன் ஒருங்கிணைக்க பைண்டிங்ஸுடன் ஒரு நூலகம் சேர்க்கப்பட்டது.
  • ஆவணங்கள் மறுவேலை செய்யப்பட்டு இப்போது தனி இணையதளத்தில் சேகரிக்கப்பட்டுள்ளது. deepspeech.readthedocs.io.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்