Fa'afou fou ole Silero speech synthesis system

O lo'o maua se fa'asalalauga fou o le Silero Text-to-Speech neural network speech synthesis system. O le poloketi o loʻo faʻamoemoe muamua i le fatuina o se faiga faʻaonaponei faʻaonaponei, maualuga le faʻaogaina o tautalaga e le maualalo i fofo faʻapisinisi mai faʻalapotopotoga ma e mafai ona maua e tagata uma e aunoa ma le faʻaogaina o mea taugata.

O faʻataʻitaʻiga o loʻo tufatufa atu i lalo ole laisene GNU AGPL, ae o le kamupani o loʻo atinaʻe le poloketi e le faʻaalia le faiga mo le aʻoaʻoina o faʻataʻitaʻiga. Ina ia tamoe, e mafai ona e faʻaogaina le PyTorch ma faʻavaʻa e lagolagoina le ONNX format. O le tu'ufa'atasiga o tautalaga i Silero e fa'avae i luga o le fa'aogaina o feso'ota'iga feso'ota'iga fa'aonaponei fa'aonaponei fa'aonaponei ma metotia fa'ailoga numera.

O loʻo maitauina o le faʻafitauli autu o fofo fesoʻotaʻiga faʻaonaponei faʻaonaponei mo le tuʻufaʻatasiga o tautalaga e masani lava ona maua i totonu o fofo ao totogi, ma o oloa a le lautele e maualuga mea e manaʻomia, e maualalo le lelei, pe le atoatoa ma sauni-e faʻaaoga. oloa. Mo se faʻataʻitaʻiga, e faʻataʻitaʻiina se tasi o faʻataʻitaʻiga faʻapipiʻi faʻamutaina fou, VITS, sologa lelei i le faiga faʻapipiʻi (o lona uiga, e le mo aʻoaʻoga faʻataʻitaʻiga), kata vitio e sili atu i le 16 gigabytes o le VRAM e manaʻomia.

E ese mai i le tulaga o loʻo i ai nei, o fofo a Silero e faʻatautaia manuia e oʻo lava ile 1 x86 filo o se Intel processor ma faʻatonuga AVX2. I luga o le 4 processor filo, faʻapipiʻi e mafai ai ona e faʻapipiʻiina mai le 30 i le 60 sekone i le sekone i le 8 kHz synthesis mode, i le 24 kHz mode - 15-20 sekone, ma i le 48 kHz mode - e tusa ma le 10 sekone.

O vaega taua o le faʻasalalauga fou Silero:

  • O le faʻataʻitaʻiga tele ua faʻaititia i le 2 taimi i le 50 megabytes;
  • Ua iloa e fa'ata'ita'iga ona taofi;
  • E 4 leo maualuga i le gagana Rusia o loʻo avanoa (ma se numera e le iʻu o numera faʻafuaseʻi). Fa'ata'otoga;
  • O faʻataʻitaʻiga ua 10 taimi vave ma, mo se faʻataʻitaʻiga, i le 24 kHz mode latou te faʻatagaina oe e faʻapipiʻi e oʻo atu i le 20 sekone o le leo i le sekone i luga ole 4 faʻasologa o filo;
  • O filifiliga leo uma mo le gagana e tasi o lo'o afifiina i se fa'ata'ita'iga e tasi;
  • E mafai e faʻataʻitaʻiga ona talia palakalafa atoa o tusitusiga e fai ma faʻaoga, SSML tags e lagolagoina;
  • O le fa'asologa e galue i le taimi e tasi i ala o fa'ata'ita'iga e tolu e filifili mai - 8, 24 ma le 48 kilohertz;
  • "Faafitauli a tamaiti" ua foia: le mautu ma upu misi;
  • Faʻaopoopo fuʻa e pulea le tuʻuina otometi o faʻailoga ma le tuʻuina o le mataitusi "е".

I le taimi nei, mo le lomiga fou o le fa'asologa, e 4 leo i le gagana Rusia o lo'o avanoa fa'alaua'itele, ae i se taimi lata mai o le a fa'asalalauina le isi lomiga fa'atasi ai ma suiga nei:

  • Ole fua ole synthesis ole a faʻateleina le isi 2-4 taimi;
  • O faʻataʻitaʻiga faʻasologa mo gagana CIS o le a faʻafouina: Kalmyk, Tatar, Uzbek ma Ukrainian;
  • O faʻataʻitaʻiga mo gagana Europa o le a faʻaopoopoina;
  • O faʻataʻitaʻiga mo gagana Initia o le a faʻaopoopoina;
  • Fa'ata'ita'iga mo le Igilisi o le a fa'aopoopoina.

O nisi o faʻaletonu faiga faʻavae i le Silero synthesis:

  • E le pei o le tele o fofo faʻasologa masani e pei ole RHVoice, Silero synthesis e leai se SAPI tuʻufaʻatasia, faigofie-faʻapipiʻi tagata faʻatau, poʻo tuʻufaʻatasiga mo Windows ma Android;
  • O le saoasaoa, e ui lava e le masani ai le maualuga mo sea fofo, atonu e le lava mo le faʻapipiʻiina i luga o le lele i luga o masini vaivai i le maualuga;
  • O le auto-accent solution e le taulimaina homographs (upu e pei o le maota ma le maota) ma o loʻo faia pea mea sese, ae o le a faʻasaʻoina i faʻasalalauga i le lumanaʻi;
  • O le faʻasologa o loʻo iai nei e le o galue i luga o le gaosiga e aunoa ma le AVX2 faʻatonuga (pe e te manaʻomia le suia faʻapitoa o PyTorch) ona o se tasi o modules i totonu o le faʻataʻitaʻiga e faʻatusatusa;
  • O le fa'asologa o lo'o iai nei e iai le fa'alagolago tasi i le PyTorch; o mea uma o lo'o fa'apipi'iina i totonu o le fa'ata'ita'iga ma pusa JIT. E le o fa'asalalauina fa'ailoga fa'apogai o fa'ata'ita'iga, fa'apea fo'i ma le fa'ailoga mo fa'ata'ita'iga fa'ata'ita'iga mai tagata fa'atau PyTorch mo isi gagana;
  • O le Libtorch, avanoa mo faʻasalalauga feaveaʻi, e sili atu le mamafa nai lo le taimi ole ONNX, ae o le ONNX version o le faʻataʻitaʻiga e leʻi maua.

puna: opennet.ru

Faaopoopo i ai se faamatalaga