Nova eldono de la parolsinteza sistemo Silero

Nova publika eldono de la Silero Text-to-Speech neŭrala reto parolsinteza sistemo estas havebla. La projekto ĉefe celas krei modernan altkvalitan parolsintezan sistemon, kiu ne malsuperas komercajn solvojn de korporacioj kaj disponeblas por ĉiuj sen la uzo de multekosta servila ekipaĵo.

Modeloj estas distribuitaj sub la permesilo GNU AGPL, sed la firmao disvolvanta la projekton ne malkaŝas la mekanismon por trejnado de modeloj. Por lanĉi, vi povas uzi PyTorch kaj kadrojn, kiuj subtenas la formaton ONNX. Parolsintezo en Silero estas bazita sur la uzo de profunde modifitaj modernaj neŭralaj retaj algoritmoj kaj ciferecaj signal-pretigaj metodoj.

Oni rimarkas, ke la ĉefa problemo de modernaj neŭralaj retaj solvoj por parolsintezo estas, ke ili ofte estas disponeblaj nur kiel parto de pagitaj nubaj solvoj, kaj publikaj produktoj havas altajn aparatajn postulojn, pli malaltan kvaliton aŭ ne estas finitaj kaj uzeblaj produktoj. . Ekzemple, por perfekte funkcii unu el la novaj popularaj fin-al-finaj sintezaj arkitekturoj, VITS, en sinteza reĝimo (t.e., ne por modeltrejnado), estas postulataj vidkartoj kun pli ol 16 gigabajtoj da VRAM.

Male al la nuna tendenco, Silero-solvoj funkcias sukcese eĉ sur 1 x86-fadeno de Intel-procesoro kun AVX2-instrukcioj. Sur 4 procesoraj fadenoj, sintezo permesas sintezi de 30 ĝis 60 sekundoj je sekundo en 8 kHz-sinteza reĝimo, en 24 kHz-reĝimo - 15-20 sekundoj, kaj en 48 kHz-reĝimo - ĉirkaŭ 10 sekundoj.

Ĉefaj trajtoj de la nova Silero-eldono:

  • La grandeco de la modelo estas reduktita je 2 fojojn al 50 megabajtoj;
  • Modeloj scias paŭzi;
  • 4 altkvalitaj voĉoj en la rusa disponeblas (kaj senfina nombro da hazardaj). Ekzemploj de prononco;
  • Modeloj fariĝis 10 fojojn pli rapidaj kaj, ekzemple, en 24 kHz-reĝimo, ili povas sintezi ĝis 20 sekundojn da audio je sekundo sur 4 procesoraj fadenoj;
  • Ĉiuj voĉebloj por unu lingvo estas pakitaj en unu modelon;
  • Modeloj povas akcepti tutajn alineojn de teksto kiel enigaĵon, SSML-etikedoj estas subtenataj;
  • Sintezo funkcias tuj en tri specimenaj indicoj por elekti - 8, 24 kaj 48 kilohercoj;
  • Solvita "infanaj problemoj": malstabileco kaj preterlaso de vortoj;
  • Aldonitaj flagoj por kontroli aŭtomatan lokigon de supersignoj kaj lokigon de la litero "ё".

Nun por la plej nova versio de la sintezo, 4 voĉoj en la rusa estas publike haveblaj, sed la sekva versio estos publikigita en proksima estonteco kun la sekvaj ŝanĝoj:

  • La indico de sintezo pliiĝos je 2-4 fojojn;
  • Sintezaj modeloj por la CIS-lingvoj estos ĝisdatigitaj: kalmuka, tatara, uzbeka kaj ukraina;
  • Modeloj por eŭropaj lingvoj estos aldonitaj;
  • Modeloj por hindaj lingvoj estos aldonitaj;
  • Modeloj por la angla estos aldonitaj.

Kelkaj el la sistempaneoj enecaj en la Silero-sintezo estas:

  • Male al pli tradiciaj sintezsolvoj kiel ekzemple RHVoice, Silero-sintezo ne havas SAPI-integriĝon, facile instaleblajn klientojn, kaj Vindozajn kaj Android-integriĝojn;
  • La rapideco, kvankam senprecedence alta por tia solvo, eble ne sufiĉas por surla fluga sintezo sur malfortaj procesoroj en alta kvalito;
  • La aŭtomata streĉa solvo ne pritraktas homografojn (vortoj kiel kastelo kaj kastelo) kaj ankoraŭ faras erarojn, sed ĉi tiu difekto estos riparita en estontaj eldonoj;
  • La nuna versio de la sintezo ne funkcias ĉe procesoroj sen AVX2-instrukcioj (aŭ vi devas specife ŝanĝi la agordojn de PyTorch), ĉar unu el la moduloj ene de la modelo estas kvantigita;
  • La nuna versio de la sintezo esence havas la nuran PyTorch-dependecon, la tuta plenigo estas "kabligita" ene de la modelo kaj JIT-pakaĵoj. Modelfontoj ne estas publikigitaj, same kiel la kodo por prizorgi modelojn de sub PyTorch-klientoj por aliaj lingvoj;
  • La libtorĉo disponebla por moveblaj platformoj estas multe pli maloportuna ol la rultempo de ONNX, sed la ONNX-versio de la modelo ankoraŭ ne estas provizita.

fonto: opennet.ru

Aldoni komenton