சிலிரோ பேச்சு தொகுப்பு அமைப்பின் புதிய வெளியீடு

சிலிரோ டெக்ஸ்ட்-டு-ஸ்பீச் நியூரல் நெட்வொர்க் பேச்சு தொகுப்பு அமைப்பின் புதிய பொது வெளியீடு கிடைக்கிறது. இந்த திட்டம் முதன்மையாக ஒரு நவீன, உயர்தர பேச்சு தொகுப்பு அமைப்பை உருவாக்குவதை நோக்கமாகக் கொண்டுள்ளது, இது நிறுவனங்களின் வணிக தீர்வுகளை விட தாழ்ந்ததல்ல மற்றும் விலையுயர்ந்த சர்வர் உபகரணங்களைப் பயன்படுத்தாமல் அனைவருக்கும் அணுகக்கூடியது.

மாடல்கள் குனு ஏஜிபிஎல் உரிமத்தின் கீழ் விநியோகிக்கப்படுகின்றன, ஆனால் திட்டத்தை உருவாக்கும் நிறுவனம் மாடல்களைப் பயிற்றுவிப்பதற்கான வழிமுறையை வெளியிடவில்லை. இயக்க, நீங்கள் ONNX வடிவமைப்பை ஆதரிக்கும் PyTorch மற்றும் கட்டமைப்புகளைப் பயன்படுத்தலாம். சிலேரோவில் பேச்சு தொகுப்பு ஆழமாக மாற்றியமைக்கப்பட்ட நவீன நரம்பியல் நெட்வொர்க் அல்காரிதம்கள் மற்றும் டிஜிட்டல் சிக்னல் செயலாக்க முறைகளின் பயன்பாட்டை அடிப்படையாகக் கொண்டது.

பேச்சுத் தொகுப்பிற்கான நவீன நரம்பியல் நெட்வொர்க் தீர்வுகளின் முக்கிய பிரச்சனை என்னவென்றால், அவை பெரும்பாலும் கட்டண கிளவுட் தீர்வுகளுக்குள் மட்டுமே கிடைக்கின்றன, மேலும் பொது தயாரிப்புகளுக்கு அதிக வன்பொருள் தேவைகள் உள்ளன, குறைந்த தரம் அல்லது முழுமையானவை மற்றும் பயன்படுத்த தயாராக இல்லை. தயாரிப்புகள். எடுத்துக்காட்டாக, புதிய பிரபலமான எண்ட்-டு-எண்ட் தொகுப்பு கட்டமைப்புகளில் ஒன்றை இயக்க, VITS, சின்தஸிஸ் முறையில் (அதாவது, மாதிரி பயிற்சிக்காக அல்ல), 16 ஜிகாபைட்களுக்கு மேல் VRAM கொண்ட வீடியோ அட்டைகள் தேவை.

தற்போதைய போக்குக்கு மாறாக, Silero தீர்வுகள் AVX1 வழிமுறைகளுடன் இன்டெல் செயலியின் 86 x2 இழையில் கூட வெற்றிகரமாக இயங்குகின்றன. 4 செயலி நூல்களில், தொகுப்பு 30 kHz தொகுப்பு பயன்முறையில் வினாடிக்கு 60 முதல் 8 வினாடிகள் வரை, 24 kHz பயன்முறையில் - 15-20 வினாடிகள், மற்றும் 48 kHz பயன்முறையில் - சுமார் 10 வினாடிகள் வரை ஒருங்கிணைக்க உங்களை அனுமதிக்கிறது.

புதிய சிலிரோ வெளியீட்டின் முக்கிய அம்சங்கள்:

  • மாடல் அளவு 2 மடங்கு குறைக்கப்பட்டு 50 மெகாபைட்டுகளாக உள்ளது;
  • மாடல்களுக்கு எப்படி இடைநிறுத்துவது என்பது தெரியும்;
  • ரஷ்ய மொழியில் 4 உயர்தர குரல்கள் உள்ளன (மற்றும் எண்ணற்ற சீரற்ற குரல்கள்). உச்சரிப்பு எடுத்துக்காட்டுகள்;
  • மாதிரிகள் 10 மடங்கு வேகமாக மாறிவிட்டன, எடுத்துக்காட்டாக, 24 kHz பயன்முறையில் அவை 20 செயலி நூல்களில் வினாடிக்கு 4 வினாடிகள் வரை ஆடியோவை ஒருங்கிணைக்க உங்களை அனுமதிக்கின்றன;
  • ஒரு மொழிக்கான அனைத்து குரல் விருப்பங்களும் ஒரு மாதிரியில் தொகுக்கப்பட்டுள்ளன;
  • மாதிரிகள் உரையின் முழு பத்திகளையும் உள்ளீடாக ஏற்றுக்கொள்ளலாம், SSML குறிச்சொற்கள் ஆதரிக்கப்படுகின்றன;
  • 8, 24 மற்றும் 48 கிலோஹெர்ட்ஸ் - தேர்வு செய்ய மூன்று மாதிரி அதிர்வெண்களில் தொகுப்பு ஒரே நேரத்தில் வேலை செய்கிறது;
  • "குழந்தைகளின் பிரச்சினைகள்" தீர்க்கப்பட்டுள்ளன: உறுதியற்ற தன்மை மற்றும் காணாமல் போன வார்த்தைகள்;
  • உச்சரிப்புகளின் தானியங்கி இடம் மற்றும் "е" என்ற எழுத்தின் இடத்தைக் கட்டுப்படுத்த கொடிகள் சேர்க்கப்பட்டன.

தற்போது, ​​தொகுப்பின் புதிய பதிப்பிற்கு, ரஷ்ய மொழியில் 4 குரல்கள் பொதுவில் கிடைக்கின்றன, ஆனால் எதிர்காலத்தில் அடுத்த பதிப்பு பின்வரும் மாற்றங்களுடன் வெளியிடப்படும்:

  • தொகுப்பு விகிதம் மற்றொரு 2-4 மடங்கு அதிகரிக்கும்;
  • சிஐஎஸ் மொழிகளுக்கான தொகுப்பு மாதிரிகள் புதுப்பிக்கப்படும்: கல்மிக், டாடர், உஸ்பெக் மற்றும் உக்ரைனியன்;
  • ஐரோப்பிய மொழிகளுக்கான மாதிரிகள் சேர்க்கப்படும்;
  • இந்திய மொழிகளுக்கான மாதிரிகள் சேர்க்கப்படும்;
  • ஆங்கிலத்திற்கான மாதிரிகள் சேர்க்கப்படும்.

சிலேரோ தொகுப்பில் உள்ளார்ந்த சில கணினி முறிவுகள்:

  • RHVoice போன்ற பாரம்பரிய தொகுப்பு தீர்வுகளைப் போலன்றி, Silero தொகுப்பு SAPI ஒருங்கிணைப்பு, எளிதாக நிறுவக்கூடிய கிளையன்ட்கள் அல்லது Windows மற்றும் Androidக்கான ஒருங்கிணைப்புகளைக் கொண்டிருக்கவில்லை;
  • அத்தகைய தீர்வுக்கு முன்னெப்போதும் இல்லாத வகையில் வேகம் அதிகமாக இருந்தாலும், உயர் தரத்தில் பலவீனமான செயலிகளில் பறக்கும் போது தொகுப்புக்கு போதுமானதாக இருக்காது;
  • ஆட்டோ-அசென்ட் தீர்வு ஹோமோகிராஃப்களைக் கையாளாது (கோட்டை மற்றும் கோட்டை போன்ற சொற்கள்) மற்றும் இன்னும் தவறுகளை செய்கிறது, ஆனால் இது எதிர்கால வெளியீடுகளில் சரி செய்யப்படும்;
  • தொகுப்பின் தற்போதைய பதிப்பு AVX2 வழிமுறைகள் இல்லாமல் செயலிகளில் வேலை செய்யாது (அல்லது நீங்கள் குறிப்பாக PyTorch அமைப்புகளை மாற்ற வேண்டும்) ஏனெனில் மாதிரியில் உள்ள தொகுதிகளில் ஒன்று அளவிடப்படுகிறது;
  • தொகுப்பின் தற்போதைய பதிப்பு அடிப்படையில் ஒரு ஒற்றை PyTorch சார்பு கொண்டது; அனைத்து திணிப்புகளும் மாதிரி மற்றும் JIT தொகுப்புகளுக்குள் "ஹார்ட் வயர்டு" ஆகும். மாதிரிகளின் மூலக் குறியீடுகள் வெளியிடப்படவில்லை, அதே போல் பிற மொழிகளுக்கான PyTorch கிளையண்டுகளிலிருந்து மாதிரிகளை இயக்குவதற்கான குறியீடும் வெளியிடப்படவில்லை;
  • மொபைல் இயங்குதளங்களுக்கு கிடைக்கும் Libtorch, ONNX இயக்க நேரத்தை விட மிகவும் பருமனானது, ஆனால் மாடலின் ONNX பதிப்பு இன்னும் கிடைக்கவில்லை.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்