Novo izdanje Silero sustava za sintezu govora

Dostupno je novo javno izdanje sustava za sintezu govora neuronske mreže Silero Text-to-Speech. Projekt je prvenstveno usmjeren na stvaranje modernog, visokokvalitetnog sustava za sintezu govora koji nije inferioran komercijalnim rješenjima korporacija i dostupan je svima bez upotrebe skupe poslužiteljske opreme.

Modeli se distribuiraju pod licencom GNU AGPL, ali tvrtka koja razvija projekt ne otkriva mehanizam za obuku modela. Za pokretanje možete koristiti PyTorch i okvire koji podržavaju ONNX format. Sinteza govora u Sileru temelji se na korištenju duboko modificiranih suvremenih algoritama neuronskih mreža i metoda digitalne obrade signala.

Napominje se da je glavni problem suvremenih neuromrežnih rješenja za sintezu govora to što su često dostupna samo unutar plaćenih cloud rješenja, a javni proizvodi imaju visoke hardverske zahtjeve, niže su kvalitete ili nisu potpuni i spremni za korištenje. proizvoda. Na primjer, za neometano pokretanje jedne od novih popularnih end-to-end arhitektura sinteze, VITS, u načinu sinteze (to jest, ne za obuku modela), potrebne su video kartice s više od 16 gigabajta VRAM-a.

Suprotno trenutnom trendu, Silero rješenja uspješno rade čak i na 1 x86 threadu Intel procesora s AVX2 instrukcijama. Na 4 procesorske niti, sinteza vam omogućuje sintezu od 30 do 60 sekundi u sekundi u načinu sinteze od 8 kHz, u načinu rada od 24 kHz - 15-20 sekundi, a u načinu rada od 48 kHz - oko 10 sekundi.

Ključne značajke novog izdanja Silera:

  • Veličina modela smanjena je 2 puta na 50 megabajta;
  • Manekenke znaju zastati;
  • Dostupna su 4 visokokvalitetna glasa na ruskom (i beskonačan broj nasumičnih). Primjeri izgovora;
  • Modeli su postali 10 puta brži i, na primjer, u načinu rada od 24 kHz omogućuju vam sintetiziranje do 20 sekundi zvuka u sekundi na 4 procesorske niti;
  • Sve glasovne opcije za jedan jezik upakirane su u jedan model;
  • Modeli mogu prihvatiti cijele odlomke teksta kao unos, SSML oznake su podržane;
  • Sinteza radi odjednom u tri frekvencije uzorkovanja koje možete izabrati - 8, 24 i 48 kiloherca;
  • “Dječji problemi” su riješeni: nestabilnost i nedostajuće riječi;
  • Dodane zastavice za kontrolu automatskog postavljanja naglasaka i postavljanja slova "e".

Trenutno su za najnoviju verziju sinteze javno dostupna 4 glasa na ruskom, ali u bliskoj budućnosti bit će objavljena sljedeća verzija sa sljedećim izmjenama:

  • Stopa sinteze će se povećati još 2-4 puta;
  • Ažurirat će se modeli sinteze za CIS jezike: kalmički, tatarski, uzbečki i ukrajinski;
  • Dodat će se modeli za europske jezike;
  • Dodat će se modeli za indijske jezike;
  • Dodat će se modeli za engleski.

Neki od kvarova sustava svojstvenih Silero sintezi:

  • Za razliku od tradicionalnijih rješenja za sintezu kao što je RHVoice, Silero sinteza nema SAPI integraciju, klijente koji se lako instaliraju ili integracije za Windows i Android;
  • Brzina, iako neviđeno visoka za takvo rješenje, možda neće biti dovoljna za on-the-fly sintezu na slabim procesorima visoke kvalitete;
  • Rješenje s automatskim naglaskom ne obrađuje homografe (riječi kao što su dvorac i dvorac) i još uvijek čini pogreške, ali to će biti ispravljeno u budućim izdanjima;
  • Trenutna verzija sinteze ne radi na procesorima bez AVX2 instrukcija (ili morate posebno promijeniti postavke PyTorcha) jer je jedan od modula unutar modela kvantiziran;
  • Trenutna verzija sinteze u suštini ima jednu ovisnost o PyTorchu; sve je "povezano" unutar modela i JIT paketa. Izvorni kodovi modela nisu objavljeni, kao ni kod za pokretanje modela iz PyTorch klijenata za druge jezike;
  • Libtorch, dostupan za mobilne platforme, puno je glomazniji od ONNX runtimea, ali ONNX verzija modela još nije dostupna.

Izvor: opennet.ru

Dodajte komentar