Siideynta cusub ee nidaamka isku dhafka hadalka ee Silero

Siidaynta guud ee cusub ee nidaamka isku xidhka hadalka neerfaha ee Silero Text-to-Speech ayaa diyaar ah. Mashruucu wuxuu ugu horeyn ujeedadiisu tahay in la abuuro hab casri ah oo tayo sare leh oo hab-dhismeed hadal ah oo aan ka hooseynin xalalka ganacsiga ee shirkadaha oo ay heli karaan qof kasta iyada oo aan la isticmaalin qalab qaali ah oo server ah.

Moodooyinka waxaa lagu qaybiyaa shatiga GNU AGPL, laakiin shirkadda horumarinaysa mashruuca ma daaha ka qaaday habka tababarka moodooyinka. Si aad u socodsiiso, waxaad isticmaali kartaa PyTorch iyo qaab-dhismeedka taageeraya qaabka ONNX. Isku-dubbaridka hadalka ee Silero wuxuu ku salaysan yahay isticmaalka shabakadaha neerfaha ee casriga ah ee algorithms-ka oo si qoto dheer wax looga beddelay iyo hababka hab-samaynta calaamadaha dhijitaalka ah.

Waxaa la xusay in dhibaatada ugu weyn ee xalalka shabakada neerfaha ee casriga ah ee loogu talagalay isku dhafka hadalka ay tahay in inta badan lagu heli karo kaliya xalalka daruuriga ah ee lacag bixinta, iyo alaabooyinka dadweynaha waxay leeyihiin shuruudo qalabeed oo sarreeya, tayo hoose leh, ama aan dhamaystirnayn oo diyaar u ah in la isticmaalo. alaabta. Tusaale ahaan, si aad u maamusho mid ka mid ah naqshadaha naqshadaynta dhamaadka-ilaa-dhamaadka caanka ah ee caanka ah, VITS, si habsami leh ugu jira habka isku-dhafka ah (taas oo ah, maaha tababarka moodeelka), kaararka fiidiyowga leh in ka badan 16 gigabytes ee VRAM ayaa loo baahan yahay.

Si ka soo horjeeda isbeddelka hadda jira, xalalka Silero waxay si guul leh ugu shaqeeyaan xitaa 1 x86 dunta processor-ka Intel oo leh tilmaamaha AVX2. 4 threads processor, synthesis kuu ogolaanayaa inaad si synthesize ka 30 ilaa 60 ilbiriqsi ee hab synthesis 8 kHz, in 24 kHz - 15-20 ilbiriqsi, iyo in 48 kHz mode - ku saabsan 10 seconds.

Tilmaamaha muhiimka ah ee sii daynta cusub ee Silero:

  • Cabbirka qaabka ayaa la dhimay 2 jeer ilaa 50 megabyte;
  • Moodooyinka waxay yaqaanaan sida loo hakiyo;
  • 4 cod oo tayo sare leh oo Ruush ah ayaa diyaar ah (iyo tiro aan xadidnayn oo kuwa random ah). Tusaalooyinka ku dhawaaqida;
  • Moodooyinka waxay noqdeen 10 jeer dhakhso badan, tusaale ahaan, qaabka 24 kHz waxay kuu oggolaanayaan inaad ku dhejiso illaa 20 ilbiriqsi oo maqal ah halkii ilbiriqsi ee 4 threads processor;
  • Dhammaan xulashooyinka codka ee hal luqad waxaa lagu soo ururiyay hal nooc;
  • Qaababyadu waxay aqbali karaan dhammaan cutubyada qoraalka sida gelinta, SSML tags waa la taageeray;
  • Isku-dubaridku wuxuu hal mar ku shaqeeyaa saddex nooc oo muunad ah oo laga dooranayo - 8, 24 iyo 48 kilohertz;
  • "Dhibaatooyinka carruurta" ayaa la xaliyay: xasillooni darro iyo ereyo maqan;
  • Calamada lagu daray si loo xakameeyo meelaynta tooska ah ee lahjadaha iyo meelaynta xarafka "Π΅".

Hadda, nooca cusub ee isku-dhafka, 4 cod oo Ruush ah ayaa si guud loo heli karaa, laakiin mustaqbalka dhow nooca xiga ayaa la daabici doonaa isbeddellada soo socda:

  • Heerka wax-soo-saarka ayaa kordhin doona 2-4 jeer oo kale;
  • Moodooyinka synthesis ee luqadaha CIS waa la cusboonaysiin doonaa: Kalmyk, Tatar, Uzbek iyo Yukreeniyaan;
  • Moodooyinka luqadaha Yurub ayaa lagu dari doonaa;
  • Qaababka luqadaha Hindida ayaa lagu dari doonaa;
  • Qaababka Ingiriisiga ayaa lagu dari doonaa.

Qaar ka mid ah burburka nidaamka ee ku jira isku-dhafka Silero:

  • Si ka duwan sida xalalka isku-dhafka dhaqameed ee badan sida RHVoice, Isku-dhafka Silero ma laha isku-dhafka SAPI, si sahlan loo rakibo macaamiisha, ama isdhexgalka Windows iyo Android;
  • Xawaaraha, in kasta oo aan hore loo arag ee xalka noocan oo kale ah, waxaa laga yaabaa inaanay ku filnayn isku-dhafka duulista ee soo-saareyaasha daciifka ah ee tayada sare leh;
  • Xalka lahjadda iswada ma xamili karo homographs (ereyada sida qalcaddii iyo qalcaddii) oo haddana khaladaadka sameeya, laakiin tan waxaa lagu sixi doonaa sii-deynta mustaqbalka;
  • Nooca hadda jira ee synthesis kuma shaqeeyo processor-yada iyada oo aan lahayn tilmaamaha AVX2 (ama waxaad u baahan tahay inaad si gaar ah u bedesho goobaha PyTorch) sababtoo ah mid ka mid ah modules-yada gudaha qaabka ayaa la qiyaasaa;
  • Nooca hadda jira ee isku xidhka asal ahaan waxa uu leeyahay hal ku tiirsanaansho PyTorch ah; dhammaan walxuhu waxa ay ku β€œqalafsan yihiin” gudaha qaabka iyo baakadaha JIT. Koodhadhka isha ee moodooyinka lama daabicin, iyo sidoo kale koodhka socodsiinta moodooyinka ee macaamiisha PyTorch ee luqadaha kale;
  • Libtorch, oo diyaar u ah aaladaha mobilada, aad ayuu uga weyn yahay ONNX runtime, laakiin nooca ONNX ee moodelku wali lama hayo.

Source: opennet.ru

Add a comment