Nová verze systému pro syntézu řeči Silero

Je k dispozici nová veřejná verze systému pro syntézu řeči v neuronové síti Silero Text-to-Speech. Projekt je primárně zaměřen na vytvoření moderního, vysoce kvalitního systému syntézy řeči, který není horší než komerční řešení od korporací a je přístupný všem bez použití drahého serverového vybavení.

Modely jsou distribuovány pod licencí GNU AGPL, ale společnost vyvíjející projekt nezveřejňuje mechanismus pro trénování modelů. Ke spuštění můžete použít PyTorch a frameworky, které podporují formát ONNX. Syntéza řeči v Silero je založena na použití hluboce upravených moderních algoritmů neuronových sítí a metod digitálního zpracování signálu.

Je třeba poznamenat, že hlavním problémem moderních řešení neuronových sítí pro syntézu řeči je to, že jsou často dostupná pouze v rámci placených cloudových řešení a veřejné produkty mají vysoké hardwarové požadavky, jsou méně kvalitní nebo nejsou kompletní a připravené k použití. produkty. Například, aby bylo možné hladce provozovat jednu z nových populárních architektur end-to-end syntézy VITS v režimu syntézy (tj. ne pro trénování modelů), jsou vyžadovány grafické karty s více než 16 gigabajty paměti VRAM.

Na rozdíl od současného trendu běží řešení Silero úspěšně i na 1 x86 vláknu procesoru Intel s instrukcemi AVX2. Na 4 vláknech procesoru vám syntéza umožňuje syntetizovat od 30 do 60 sekund za sekundu v režimu syntézy 8 kHz, v režimu 24 kHz - 15-20 sekund a v režimu 48 kHz - asi 10 sekund.

Klíčové vlastnosti nového vydání Silero:

  • Velikost modelu byla snížena dvakrát na 2 megabajtů;
  • Modelky vědí, jak se pozastavit;
  • K dispozici jsou 4 vysoce kvalitní hlasy v ruštině (a nekonečné množství náhodných). Příklady výslovnosti;
  • Modely se staly 10x rychlejšími a například v režimu 24 kHz umožňují syntetizovat až 20 sekund zvuku za sekundu na 4 vláknech procesoru;
  • Všechny hlasové možnosti pro jeden jazyk jsou zabaleny do jednoho modelu;
  • Modely mohou přijímat celé odstavce textu jako vstup, jsou podporovány značky SSML;
  • Syntéza pracuje najednou ve třech vzorkovacích frekvencích na výběr - 8, 24 a 48 kHz;
  • „Problémy dětí“ byly vyřešeny: nestabilita a chybějící slova;
  • Přidány příznaky pro ovládání automatického umístění akcentů a umístění písmene „е“.

V současné době jsou pro nejnovější verzi syntézy veřejně dostupné 4 hlasy v ruštině, ale v blízké budoucnosti bude zveřejněna další verze s následujícími změnami:

  • Rychlost syntézy se zvýší ještě 2-4krát;
  • Budou aktualizovány modely syntézy jazyků SNS: Kalmyk, Tatar, Uzbek a Ukrajinština;
  • Budou přidány modely pro evropské jazyky;
  • Budou přidány modely pro indické jazyky;
  • Budou přidány modely pro angličtinu.

Některá ze systémových poruch, která jsou vlastní syntéze Silero:

  • Na rozdíl od tradičnějších řešení syntézy, jako je RHVoice, syntéza Silero nemá integraci SAPI, snadno instalovatelné klienty ani integrace pro Windows a Android;
  • Rychlost, i když je na takové řešení nebývale vysoká, nemusí být dostatečná pro průběžnou syntézu na slabých procesorech ve vysoké kvalitě;
  • Řešení s automatickým zvýrazněním nezpracovává homografy (slova jako hrad a hrad) a stále dělá chyby, ale to bude v budoucích verzích opraveno;
  • Současná verze syntézy nefunguje na procesorech bez instrukcí AVX2 (nebo je třeba specificky změnit nastavení PyTorch), protože jeden z modulů uvnitř modelu je kvantován;
  • Současná verze syntézy má v podstatě jedinou závislost na PyTorch; veškerá náplň je „pevně zapojena“ uvnitř balíčků modelu a JIT. Zdrojové kódy modelů nejsou zveřejněny, stejně jako kód pro spouštění modelů z klientů PyTorch pro jiné jazyky;
  • Libtorch, dostupný pro mobilní platformy, je mnohem objemnější než runtime ONNX, ale verze modelu ONNX zatím není k dispozici.

Zdroj: opennet.ru

Přidat komentář