Silero ahots-sintesi sistemaren bertsio berria

Silero Test-to-Speech neurona-sareko hizketa-sintesi sistemaren bertsio publiko berria eskuragarri dago. Proiektua, batez ere, kalitate handiko ahots-sintesi sistema moderno bat sortzea du helburu, korporazioen irtenbide komertzialak baino txikiagoak ez direnak eta guztientzako eskuragarria zerbitzari ekipamendu garestirik erabili gabe.

Ereduak GNU AGPL lizentziapean banatzen dira, baina proiektua garatzen duen enpresak ez du ereduak entrenatzeko mekanismoa ezagutzera ematen. Exekutatzeko, PyTorch eta ONNX formatua onartzen duten markoak erabil ditzakezu. Silero-n ahots-sintesia sakon aldatutako neurona-sare modernoen algoritmoak eta seinale digitalak prozesatzeko metodoak erabiltzen ditu.

Kontuan izan da ahots-sintesirako neurona-sare modernoen arazo nagusia maiz ordainpeko hodeiko soluzioetan soilik erabilgarri daudela eta produktu publikoek hardware-eskakizun handiak dituztela, kalitate baxuagokoak edo osoak eta erabiltzeko prest ez daudela. produktuak. Esate baterako, amaierako sintesi-arkitektura ezagun berrietako bat, VITS, exekutatzeko, sintesi moduan (hau da, ez ereduen prestakuntzarako), 16 gigabyte VRAM baino gehiago dituzten bideo-txartelak behar dira.

Gaur egungo joeraren aurka, Silero soluzioak arrakastaz exekutatzen dira Intel prozesadore baten 1 x86 hariarekin ere AVX2 argibideak dituena. 4 prozesadorearen harietan, sintesiak segundoko 30 eta 60 segundora sintetizatzeko aukera ematen du 8 kHz sintesi moduan, 24 kHz moduan - 15-20 segundo eta 48 kHz moduan - 10 segundo inguru.

Silero bertsio berriaren ezaugarri nagusiak:

  • Modeloaren tamaina 2 aldiz murriztu da 50 megabytera;
  • Modeloek badakite pausatzen;
  • Errusieraz kalitate handiko 4 ahots daude eskuragarri (eta ausazko kopuru infinitu bat). Ahoskera adibideak;
  • Ereduak 10 aldiz azkarrago bihurtu dira eta, adibidez, 24 kHz moduan, segundoko 20 segundoko audioa sintetizatzeko aukera ematen dute 4 prozesadore haritan;
  • Hizkuntza bakarreko ahots-aukera guztiak eredu batean biltzen dira;
  • Ereduek testuaren paragrafo osoak onartu ditzakete sarrera gisa, SSML etiketak onartzen dira;
  • Sintesiak aldi berean funtzionatzen du hiru laginketa-maiztasunetan aukeran - 8, 24 eta 48 kilohertz;
  • β€œHaurren arazoak” konpondu dira: ezegonkortasuna eta hitz falta;
  • Banderak gehitu dira azentuen kokapen automatikoa eta "Π΅" letraren kokapena kontrolatzeko.

Gaur egun, sintesiaren bertsio berrienerako, errusierazko 4 ahots publikoki eskuragarri daude, baina etorkizun hurbilean hurrengo bertsioa argitaratuko da aldaketa hauekin:

  • Sintesi-tasa beste 2-4 aldiz handituko da;
  • CIS hizkuntzetarako sintesi ereduak eguneratuko dira: kalmyk, tatariera, uzbekera eta ukrainera;
  • Europako hizkuntzetarako ereduak gehituko dira;
  • Indiako hizkuntzetarako ereduak gehituko dira;
  • Ingeleserako ereduak gehituko dira.

Sileroren sintesiaren berezko sistemaren matxura batzuk:

  • RHVoice bezalako sintesi-soluzio tradizionalagoak ez bezala, Silero sintesiak ez du SAPI integraziorik, erraz instalatzeko bezeroak edo Windows eta Android-erako integrazioak;
  • Abiadura, aurrekaririk gabeko konponbide baterako altua izan arren, baliteke kalitate handiko prozesadore ahuletan etengabeko sintesirako nahikoa ez izatea;
  • Auto-azentu irtenbideak ez ditu homografoak maneiatzen (gaztelua eta gaztelua bezalako hitzak) eta oraindik ere akatsak egiten ditu, baina hurrengo argitalpenetan zuzenduko da;
  • Sintesiaren egungo bertsioak ez du funtzionatzen AVX2 instrukziorik gabeko prozesadoreetan (edo PyTorch-en ezarpenak bereziki aldatu behar dituzu), modeloaren barruan dagoen moduluetako bat kuantizatuta dagoelako;
  • Sintesiaren egungo bertsioak PyTorch-en menpekotasun bakarra du funtsean; betegarri guztiak ereduaren eta JIT paketeen barruan "kablekatuta" daude. Modeloen iturburu-kodeak ez dira argitaratzen, baita PyTorch bezeroen ereduak exekutatzeko kodea beste hizkuntza batzuetarako ere;
  • Libtorch, mugikorretarako plataformetarako eskuragarri, ONNX exekuzio-denbora baino askoz ere pisutsuagoa da, baina ereduaren ONNX bertsioa oraindik ez dago eskuragarri.

Iturria: opennet.ru

Gehitu iruzkin berria