Te whakaputanga hou o te punaha whakahiato korero a Silero

He whakaputanga hou mo te iwi whanui mo te Silero Text-to-Speech neural network synthesis speech system is available. Ko te kaupapa matua ko te hanga i tetahi punaha whakahiato korero hou, kounga teitei e kore e iti iho i nga otinga arumoni mai i nga kaporeihana me te waatea ki nga tangata katoa me te kore e whakamahi taputapu utu nui.

Ka tohatohahia nga tauira i raro i te raihana GNU AGPL, engari kaore te kamupene e whakawhanake ana i te kaupapa e whakaatu ana i te tikanga mo te whakangungu i nga tauira. Hei rere, ka taea e koe te whakamahi PyTorch me nga anga e tautoko ana i te whakatakotoranga ONNX. Ko te whakahiato korero i roto i te Silero e ahu mai ana i runga i te whakamahinga o nga taakete whatunga neural hou hou me nga tikanga tukatuka tohu mamati.

Kua tohuhia ko te raru nui o nga otinga whatunga neural hou mo te whakahiato korero ko te nuinga o nga wa ka waatea noa i roto i nga otinga kapua utu, me nga hua a te iwi he nui nga whakaritenga taputapu, he iti ake te kounga, kaore ranei i te oti, kua rite ki te whakamahi. hua. Hei tauira, ki te whakahaere i tetahi o nga hoahoanga whakahiato mutunga-ki-mutunga hou, VITS, he maeneene i roto i te aratau whakahiato (ara, ehara mo te whakangungu tauira), ka hiahiatia nga kaari ataata neke atu i te 16 gigabytes o VRAM.

He rereke ki nga ahuatanga o naianei, ka rere angitu nga otinga Silero ahakoa i runga i te miro 1 x86 o te tukatuka Intel me nga tohutohu AVX2. I runga i nga miro tukatuka 4, ka taea e te whakahiato te whakahiato mai i te 30 ki te 60 hēkona ia hēkona i roto i te aratau whakahiato 8 kHz, i te aratau 24 kHz - 15-20 hēkona, me te aratau 48 kHz - tata ki te 10 hēkona.

Ko nga ahuatanga matua o te tuku Silero hou:

  • Ko te rahi o te tauira kua whakahekehia e 2 nga wa ki te 50 megabytes;
  • E mohio ana nga tauira ki te okioki;
  • E 4 nga reo-kounga teitei i roto i te reo Ruhia e waatea ana (me te maha kore mutunga o nga mea matapōkere). He tauira whakahua;
  • Ko nga tauira kua 10 nga wa tere ake, hei tauira, i roto i te aratau 24 kHz ka taea e koe te whakahiato ki te 20 hēkona o te oro mo ia hekona i runga i nga miro tukatuka 4;
  • Ko nga whiringa reo katoa mo te reo kotahi ka kohia ki te tauira kotahi;
  • Ka taea e nga tauira te whakaae ki nga kowae katoa o te tuhinga hei whakaurunga, ka tautokohia nga tohu SSML;
  • Ka mahi te whakahiato i te wa kotahi i roto i nga iarere whakatauira e toru hei whiriwhiri mai - 8, 24 me te 48 kirohertz;
  • Kua whakatauhia nga "raruraru o nga tamariki": te koretake me nga kupu ngaro;
  • Kua taapirihia nga haki hei whakahaere i te whakauru aunoa o nga tohu me te tuunga o te reta "е".

I tenei wa, mo te putanga hou o te whakahiatotanga, e 4 nga reo reo Ruhia e waatea ana ki te iwi whanui, engari i nga wa e heke mai nei ka whakaputahia te putanga e whai ake nei me nga huringa e whai ake nei:

  • Ko te tere o te whakahiato ka piki ake i te 2-4 nga wa;
  • Ko nga tauira whakahiato mo nga reo CIS ka whakahoutia: Kalmyk, Tatar, Uzbek me Ukrainian;
  • Ka taapirihia nga tauira mo nga reo Pakeha;
  • Ka taapirihia nga tauira mo nga reo Inia;
  • Ka taapirihia nga tauira mo te reo Ingarihi.

Ko etahi o nga pakaru o te punaha kei roto i te Synthesis Silero:

  • Kaore i rite ki nga otinga whakahiato tuku iho penei i te RHVoice, ko te Silero synthesis kaore he whakauru SAPI, he ngawari ki te whakauru i nga kiritaki, he whakaurunga ranei mo Windows me Android;
  • Ko te tere, ahakoa he nui rawa atu mo taua otinga, kaore pea e ranea mo te whakahiato i runga i te rere i runga i nga miihini ngoikore me te kounga teitei;
  • Ko te otinga nako-aunoa e kore e hapai i nga homographs (nga kupu penei i te whare rangatira me te whare rangatira) ka he tonu, engari ka whakatikahia tenei i roto i nga whakaputanga a meake nei;
  • Ko te putanga o naianei o te whakahiatotanga karekau e mahi i runga i nga kaitukatuka me te kore he tohutohu AVX2 (me whakarereke ranei e koe nga tautuhinga PyTorch) na te mea ko tetahi o nga waahanga kei roto i te tauira kua ine;
  • Ko te putanga o naianei o te whakahiatotanga he kotahi te PyTorch ti'aturi; ko nga mea katoa he "maamaa" ki roto i te tauira me nga kete JIT. Ko nga waehere puna o nga tauira kaore i te whakaputahia, me te waehere mo te whakahaere tauira mai i nga kiritaki PyTorch mo etahi atu reo;
  • Ko te Libtorch, e waatea ana mo nga papaaho waea, he nui ake i te waa whakahaere ONNX, engari ko te putanga ONNX o te tauira kaore ano kia waatea.

Source: opennet.ru

Tāpiri i te kōrero