සිලෙරෝ කථන සංස්ලේෂණ පද්ධතියේ නව නිකුතුව

Silero Text-to-Speech ස්නායු ජාල කථන සංස්ලේෂණ පද්ධතියේ නව පොදු නිකුතුවක් තිබේ. ව්‍යාපෘතිය මූලික වශයෙන් අරමුණු කර ඇත්තේ සංගතවලින් ලැබෙන වාණිජ විසඳුම්වලට වඩා පහත් නොවන නවීන, උසස් තත්ත්වයේ කථන සංස්ලේෂණ පද්ධතියක් නිර්මාණය කිරීම සහ මිල අධික සේවාදායක උපකරණ භාවිතයෙන් තොරව සෑම කෙනෙකුටම ප්‍රවේශ විය හැකිය.

මාදිලි GNU AGPL බලපත්‍රය යටතේ බෙදා හරිනු ලැබේ, නමුත් ව්‍යාපෘතිය සංවර්ධනය කරන සමාගම ආකෘති පුහුණු කිරීමේ යාන්ත්‍රණය හෙළි නොකරයි. ධාවනය කිරීමට, ඔබට ONNX ආකෘතියට සහය දක්වන PyTorch සහ රාමු භාවිතා කළ හැක. සිලෙරෝ හි කථන සංස්ලේෂණය පදනම් වී ඇත්තේ ගැඹුරින් වෙනස් කරන ලද නවීන ස්නායු ජාල ඇල්ගොරිතම සහ ඩිජිටල් සංඥා සැකසුම් ක්‍රම භාවිතය මතය.

කථන සංස්ලේෂණය සඳහා වන නවීන ස්නායුක ජාල විසඳුම්වල ප්‍රධාන ගැටළුව වන්නේ ඒවා බොහෝ විට ලබා ගත හැක්කේ ගෙවන වලාකුළු විසඳුම් තුළ පමණක් බවත්, පොදු නිෂ්පාදනවලට ඉහළ දෘඩාංග අවශ්‍යතා ඇති, අඩු ගුණාත්මක බවින් හෝ සම්පූර්ණ සහ භාවිතයට සූදානම් නැති බවත් සටහන් වේ. නිෂ්පාදන. උදාහරණයක් ලෙස, නව ජනප්‍රිය අන්තයේ සිට අවසානය දක්වා සංස්ලේෂක ගෘහ නිර්මාණ ශිල්පයක් වන VITS, සංශ්ලේෂණ මාදිලියේ සුමට ලෙස ධාවනය කිරීමට (එනම්, ආකෘති පුහුණුව සඳහා නොවේ), VRAM 16 ගිගාබයිට් වලට වඩා වැඩි වීඩියෝ කාඩ්පත් අවශ්‍ය වේ.

වර්තමාන ප්‍රවණතාවයට පටහැනිව, Silero විසඳුම් AVX1 උපදෙස් සහිත Intel ප්‍රොසෙසරයක 86 x2 නූල් මත පවා සාර්ථකව ක්‍රියාත්මක වේ. ප්‍රොසෙසර නූල් 4 ක් මත, සංශ්ලේෂණය මඟින් ඔබට 30 kHz සංශ්ලේෂණ මාදිලියේ තත්පර 60 සිට 8 දක්වා සංශ්ලේෂණය කිරීමට ඉඩ සලසයි, 24 kHz මාදිලියේ - තත්පර 15-20, සහ 48 kHz මාදිලියේ - තත්පර 10 ක් පමණ.

නව Silero නිකුතුවේ ප්රධාන ලක්ෂණ:

  • මාදිලියේ ප්රමාණය මෙගාබයිට් 2 දක්වා 50 ගුණයකින් අඩු කර ඇත;
  • විරාමය කරන්නේ කෙසේදැයි ආකෘති දන්නවා;
  • රුසියානු භාෂාවෙන් උසස් තත්ත්වයේ හඬවල් 4 ක් ඇත (සහ අහඹු ලෙස අනන්ත ගණනක්). උච්චාරණ උදාහරණ;
  • ආකෘති 10 ගුණයකින් වේගවත් වී ඇති අතර, උදාහරණයක් ලෙස, 24 kHz මාදිලියේ, ප්‍රොසෙසර නූල් 20 ක් මත තත්පරයට තත්පර 4 ක ශ්‍රව්‍ය සංශ්ලේෂණය කිරීමට ඔබට ඉඩ සලසයි;
  • එක් භාෂාවක් සඳහා සියලුම හඬ විකල්ප එක් ආකෘතියකට ඇසුරුම් කර ඇත;
  • ආකෘති වලට පෙළෙහි සම්පූර්ණ ඡේද ආදානය ලෙස පිළිගත හැක, SSML ටැග් සහය දක්වයි;
  • සංශ්ලේෂණය තෝරා ගැනීමට නියැදි සංඛ්‍යාත තුනකින් එකවර ක්‍රියා කරයි - 8, 24 සහ 48 kilohertz;
  • "ළමා ගැටළු" විසඳා ඇත: අස්ථාවරත්වය සහ අතුරුදහන් වූ වචන;
  • උච්චාරණ ස්වයංක්‍රීයව ස්ථානගත කිරීම සහ "е" අක්ෂරය ස්ථානගත කිරීම පාලනය කිරීම සඳහා කොඩි එකතු කරන ලදී.

දැනට, සංශ්ලේෂණයේ නවතම අනුවාදය සඳහා, රුසියානු භාෂාවෙන් හඬවල් 4ක් ප්‍රසිද්ධියේ ඇත, නමුත් නුදුරු අනාගතයේ දී ඊළඟ අනුවාදය පහත වෙනස්කම් සමඟ ප්‍රකාශයට පත් කෙරේ:

  • සංශ්ලේෂණ අනුපාතය තවත් 2-4 ගුණයකින් වැඩි වනු ඇත;
  • CIS භාෂා සඳහා සංශ්ලේෂණ ආකෘති යාවත්කාලීන කරනු ලැබේ: කල්මික්, ටාටාර්, උස්බෙක් සහ යුක්රේනියානු;
  • යුරෝපීය භාෂා සඳහා ආකෘති එකතු කරනු ලැබේ;
  • ඉන්දියානු භාෂා සඳහා ආකෘති එකතු කරනු ලැබේ;
  • ඉංග්රීසි සඳහා ආකෘති එකතු කරනු ලැබේ.

සිලෙරෝ සංස්ලේෂණයට ආවේනික වූ සමහර පද්ධති බිඳවැටීම්:

  • RHVoice වැනි සාම්ප්‍රදායික සංස්ලේෂණ විසඳුම් මෙන් නොව, Silero සංස්ලේෂණයට SAPI ඒකාබද්ධ කිරීම, පහසුවෙන් ස්ථාපනය කළ හැකි සේවාලාභීන් හෝ Windows සහ Android සඳහා ඒකාබද්ධ කිරීම් නොමැත;
  • වේගය, එවැනි විසඳුමක් සඳහා පෙර නොවූ විරූ ලෙස ඉහළ වුවද, උසස් තත්ත්වයේ දුර්වල ප්‍රොසෙසර මත පියාසර සංශ්ලේෂණය සඳහා ප්‍රමාණවත් නොවිය හැක;
  • ස්වයංක්‍රීය උච්චාරණ විසඳුම සමලිංගික (කාසල් සහ කාසල් වැනි වචන) හසුරුවන්නේ නැති අතර තවමත් වැරදි සිදු කරයි, නමුත් අනාගත නිකුතු වලදී මෙය නිවැරදි කරනු ඇත;
  • සංශ්ලේෂණයේ වත්මන් අනුවාදය AVX2 උපදෙස් නොමැතිව ප්‍රොසෙසර මත ක්‍රියා නොකරයි (නැතහොත් ඔබට විශේෂයෙන් PyTorch සිටුවම් වෙනස් කිරීමට අවශ්‍ය වේ) මොඩලය තුළ ඇති මොඩියුල වලින් එකක් ප්‍රමාණනය කර ඇති නිසා;
  • සංස්ලේෂණයේ වත්මන් අනුවාදය අත්‍යවශ්‍යයෙන්ම තනි PyTorch පරායත්තතාවයක් ඇත; සියලුම පිරවුම් ආකෘතිය සහ JIT පැකේජ තුළ “දෘඩ රැහැන්” කර ඇත. වෙනත් භාෂා සඳහා PyTorch සේවාලාභීන් වෙතින් ආකෘති ධාවනය කිරීම සඳහා වන කේතය මෙන්ම, ආකෘතිවල ප්‍රභව කේත ප්‍රකාශනය නොකෙරේ;
  • ජංගම වේදිකා සඳහා ලබා ගත හැකි Libtorch, ONNX ධාවන කාලයට වඩා විශාලයි, නමුත් මාදිලියේ ONNX අනුවාදයක් තවමත් ලබා ගත නොහැක.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න