Je k dispozici nová veřejná verze systému pro syntézu řeči v neuronové síti Silero Text-to-Speech. Projekt je primárně zaměřen na vytvoření moderního, vysoce kvalitního systému syntézy řeči, který není horší než komerční řešení od korporací a je přístupný všem bez použití drahého serverového vybavení.
Modely jsou distribuovány pod licencí GNU AGPL, ale společnost vyvíjející projekt nezveřejňuje mechanismus pro trénování modelů. Ke spuštění můžete použít PyTorch a frameworky, které podporují formát ONNX. Syntéza řeči v Silero je založena na použití hluboce upravených moderních algoritmů neuronových sítí a metod digitálního zpracování signálu.
Je třeba poznamenat, že hlavním problémem moderních řešení neuronových sítí pro syntézu řeči je to, že jsou často dostupná pouze v rámci placených cloudových řešení a veřejné produkty mají vysoké hardwarové požadavky, jsou méně kvalitní nebo nejsou kompletní a připravené k použití. produkty. Například, aby bylo možné hladce provozovat jednu z nových populárních architektur end-to-end syntézy VITS v režimu syntézy (tj. ne pro trénování modelů), jsou vyžadovány grafické karty s více než 16 gigabajty paměti VRAM.
Na rozdíl od současného trendu běží řešení Silero úspěšně i na 1 x86 vláknu procesoru Intel s instrukcemi AVX2. Na 4 vláknech procesoru vám syntéza umožňuje syntetizovat od 30 do 60 sekund za sekundu v režimu syntézy 8 kHz, v režimu 24 kHz - 15-20 sekund a v režimu 48 kHz - asi 10 sekund.
Klíčové vlastnosti nového vydání Silero:
- Velikost modelu byla snížena dvakrát na 2 megabajtů;
- Modelky vědí, jak se pozastavit;
- K dispozici jsou 4 vysoce kvalitní hlasy v ruštině (a nekonečné množství náhodných). Příklady výslovnosti;
- Modely se staly 10x rychlejšími a například v režimu 24 kHz umožňují syntetizovat až 20 sekund zvuku za sekundu na 4 vláknech procesoru;
- Všechny hlasové možnosti pro jeden jazyk jsou zabaleny do jednoho modelu;
- Modely mohou přijímat celé odstavce textu jako vstup, jsou podporovány značky SSML;
- Syntéza pracuje najednou ve třech vzorkovacích frekvencích na výběr - 8, 24 a 48 kHz;
- „Problémy dětí“ byly vyřešeny: nestabilita a chybějící slova;
- Přidány příznaky pro ovládání automatického umístění akcentů a umístění písmene „е“.
V současné době jsou pro nejnovější verzi syntézy veřejně dostupné 4 hlasy v ruštině, ale v blízké budoucnosti bude zveřejněna další verze s následujícími změnami:
- Rychlost syntézy se zvýší ještě 2-4krát;
- Budou aktualizovány modely syntézy jazyků SNS: Kalmyk, Tatar, Uzbek a Ukrajinština;
- Budou přidány modely pro evropské jazyky;
- Budou přidány modely pro indické jazyky;
- Budou přidány modely pro angličtinu.
Některá ze systémových poruch, která jsou vlastní syntéze Silero:
- Na rozdíl od tradičnějších řešení syntézy, jako je RHVoice, syntéza Silero nemá integraci SAPI, snadno instalovatelné klienty ani integrace pro Windows a Android;
- Rychlost, i když je na takové řešení nebývale vysoká, nemusí být dostatečná pro průběžnou syntézu na slabých procesorech ve vysoké kvalitě;
- Řešení s automatickým zvýrazněním nezpracovává homografy (slova jako hrad a hrad) a stále dělá chyby, ale to bude v budoucích verzích opraveno;
- Současná verze syntézy nefunguje na procesorech bez instrukcí AVX2 (nebo je třeba specificky změnit nastavení PyTorch), protože jeden z modulů uvnitř modelu je kvantován;
- Současná verze syntézy má v podstatě jedinou závislost na PyTorch; veškerá náplň je „pevně zapojena“ uvnitř balíčků modelu a JIT. Zdrojové kódy modelů nejsou zveřejněny, stejně jako kód pro spouštění modelů z klientů PyTorch pro jiné jazyky;
- Libtorch, dostupný pro mobilní platformy, je mnohem objemnější než runtime ONNX, ale verze modelu ONNX zatím není k dispozici.
Zdroj: opennet.ru