K dispozícii je nové verejné vydanie systému pre syntézu reči v neurónovej sieti Silero Text-to-Speech. Projekt je primárne zameraný na vytvorenie moderného, kvalitného systému syntézy reči, ktorý nie je horší ako komerčné riešenia od korporácií a je dostupný pre každého bez použitia drahého serverového vybavenia.
Modely sú distribuované pod licenciou GNU AGPL, ale spoločnosť vyvíjajúca projekt nezverejňuje mechanizmus na trénovanie modelov. Na spustenie môžete použiť PyTorch a rámce, ktoré podporujú formát ONNX. Syntéza reči v Silero je založená na použití hlboko modifikovaných algoritmov moderných neurónových sietí a metód digitálneho spracovania signálu.
Je potrebné poznamenať, že hlavným problémom riešení moderných neurónových sietí na syntézu reči je to, že sú často dostupné iba v rámci platených cloudových riešení a verejné produkty majú vysoké hardvérové požiadavky, sú nižšej kvality alebo nie sú kompletné a pripravené na použitie. Produkty. Napríklad, ak chcete hladko spustiť jednu z nových populárnych architektúr end-to-end syntézy, VITS, v režime syntézy (teda nie pre tréning modelov), sú potrebné grafické karty s viac ako 16 gigabajtmi pamäte VRAM.
Na rozdiel od súčasného trendu riešenia Silero úspešne bežia aj na 1 x86 vlákne procesora Intel s inštrukciami AVX2. Na 4 vláknach procesora vám syntéza umožňuje syntetizovať od 30 do 60 sekúnd za sekundu v režime syntézy 8 kHz, v režime 24 kHz - 15-20 sekúnd a v režime 48 kHz - asi 10 sekúnd.
Kľúčové vlastnosti nového vydania Silero:
- Veľkosť modelu sa 2-krát zmenšila na 50 megabajtov;
- Modelky vedia robiť pauzu;
- K dispozícii sú 4 vysokokvalitné hlasy v ruštine (a nekonečné množstvo náhodných). Príklady výslovnosti;
- Modely sú 10-krát rýchlejšie a napríklad v režime 24 kHz vám umožňujú syntetizovať až 20 sekúnd zvuku za sekundu na 4 vláknach procesora;
- Všetky hlasové možnosti pre jeden jazyk sú zabalené do jedného modelu;
- Modely môžu akceptovať celé odseky textu ako vstup, sú podporované značky SSML;
- Syntéza pracuje naraz v troch vzorkovacích frekvenciách na výber - 8, 24 a 48 kHz;
- „Problémy detí“ boli vyriešené: nestabilita a chýbajúce slová;
- Pridané príznaky na ovládanie automatického umiestňovania akcentov a umiestnenia písmena „е“.
V súčasnosti sú pre najnovšiu verziu syntézy verejne dostupné 4 hlasy v ruštine, ale v blízkej budúcnosti bude zverejnená ďalšia verzia s nasledujúcimi zmenami:
- Rýchlosť syntézy sa zvýši ešte 2-4 krát;
- Budú aktualizované modely syntézy jazykov SNŠ: Kalmyk, Tatar, Uzbek a Ukrajinčina;
- Pridajú sa modely pre európske jazyky;
- Pridajú sa modely pre indické jazyky;
- Modely pre angličtinu budú pridané.
Niektoré zo systémových porúch, ktoré sú vlastné syntéze Silero:
- Na rozdiel od tradičnejších riešení syntézy, ako je RHVoice, syntéza Silero nemá integráciu SAPI, jednoducho inštalovateľných klientov ani integrácie pre Windows a Android;
- Rýchlosť, aj keď je na takéto riešenie bezprecedentne vysoká, nemusí postačovať na priebežnú syntézu na slabých procesoroch pri vysokej kvalite;
- Riešenie s automatickým zvýraznením nezvláda homografy (slová ako hrad a hrad) a stále robí chyby, ale to bude opravené v budúcich vydaniach;
- Aktuálna verzia syntézy nefunguje na procesoroch bez inštrukcií AVX2 (alebo musíte špecificky zmeniť nastavenia PyTorch), pretože jeden z modulov vo vnútri modelu je kvantovaný;
- Aktuálna verzia syntézy má v podstate jedinú závislosť na PyTorch; všetky výplne sú „napevno“ zapojené do modelov a balíčkov JIT. Zdrojové kódy modelov nie sú zverejnené, rovnako ako kód pre spustenie modelov z klientov PyTorch pre iné jazyky;
- Libtorch, dostupný pre mobilné platformy, je oveľa objemnejší ako runtime ONNX, ale verzia modelu ONNX ešte nie je k dispozícii.
Zdroj: opennet.ru