Nové vydanie systému syntézy reči Silero

K dispozícii je nové verejné vydanie systému pre syntézu reči v neurónovej sieti Silero Text-to-Speech. Projekt je primárne zameraný na vytvorenie moderného, ​​kvalitného systému syntézy reči, ktorý nie je horší ako komerčné riešenia od korporácií a je dostupný pre každého bez použitia drahého serverového vybavenia.

Modely sú distribuované pod licenciou GNU AGPL, ale spoločnosť vyvíjajúca projekt nezverejňuje mechanizmus na trénovanie modelov. Na spustenie môžete použiť PyTorch a rámce, ktoré podporujú formát ONNX. Syntéza reči v Silero je založená na použití hlboko modifikovaných algoritmov moderných neurónových sietí a metód digitálneho spracovania signálu.

Je potrebné poznamenať, že hlavným problémom riešení moderných neurónových sietí na syntézu reči je to, že sú často dostupné iba v rámci platených cloudových riešení a verejné produkty majú vysoké hardvérové ​​požiadavky, sú nižšej kvality alebo nie sú kompletné a pripravené na použitie. Produkty. Napríklad, ak chcete hladko spustiť jednu z nových populárnych architektúr end-to-end syntézy, VITS, v režime syntézy (teda nie pre tréning modelov), sú potrebné grafické karty s viac ako 16 gigabajtmi pamäte VRAM.

Na rozdiel od súčasného trendu riešenia Silero úspešne bežia aj na 1 x86 vlákne procesora Intel s inštrukciami AVX2. Na 4 vláknach procesora vám syntéza umožňuje syntetizovať od 30 do 60 sekúnd za sekundu v režime syntézy 8 kHz, v režime 24 kHz - 15-20 sekúnd a v režime 48 kHz - asi 10 sekúnd.

Kľúčové vlastnosti nového vydania Silero:

  • Veľkosť modelu sa 2-krát zmenšila na 50 megabajtov;
  • Modelky vedia robiť pauzu;
  • K dispozícii sú 4 vysokokvalitné hlasy v ruštine (a nekonečné množstvo náhodných). Príklady výslovnosti;
  • Modely sú 10-krát rýchlejšie a napríklad v režime 24 kHz vám umožňujú syntetizovať až 20 sekúnd zvuku za sekundu na 4 vláknach procesora;
  • Všetky hlasové možnosti pre jeden jazyk sú zabalené do jedného modelu;
  • Modely môžu akceptovať celé odseky textu ako vstup, sú podporované značky SSML;
  • Syntéza pracuje naraz v troch vzorkovacích frekvenciách na výber - 8, 24 a 48 kHz;
  • „Problémy detí“ boli vyriešené: nestabilita a chýbajúce slová;
  • Pridané príznaky na ovládanie automatického umiestňovania akcentov a umiestnenia písmena „е“.

V súčasnosti sú pre najnovšiu verziu syntézy verejne dostupné 4 hlasy v ruštine, ale v blízkej budúcnosti bude zverejnená ďalšia verzia s nasledujúcimi zmenami:

  • Rýchlosť syntézy sa zvýši ešte 2-4 krát;
  • Budú aktualizované modely syntézy jazykov SNŠ: Kalmyk, Tatar, Uzbek a Ukrajinčina;
  • Pridajú sa modely pre európske jazyky;
  • Pridajú sa modely pre indické jazyky;
  • Modely pre angličtinu budú pridané.

Niektoré zo systémových porúch, ktoré sú vlastné syntéze Silero:

  • Na rozdiel od tradičnejších riešení syntézy, ako je RHVoice, syntéza Silero nemá integráciu SAPI, jednoducho inštalovateľných klientov ani integrácie pre Windows a Android;
  • Rýchlosť, aj keď je na takéto riešenie bezprecedentne vysoká, nemusí postačovať na priebežnú syntézu na slabých procesoroch pri vysokej kvalite;
  • Riešenie s automatickým zvýraznením nezvláda homografy (slová ako hrad a hrad) a stále robí chyby, ale to bude opravené v budúcich vydaniach;
  • Aktuálna verzia syntézy nefunguje na procesoroch bez inštrukcií AVX2 (alebo musíte špecificky zmeniť nastavenia PyTorch), pretože jeden z modulov vo vnútri modelu je kvantovaný;
  • Aktuálna verzia syntézy má v podstate jedinú závislosť na PyTorch; všetky výplne sú „napevno“ zapojené do modelov a balíčkov JIT. Zdrojové kódy modelov nie sú zverejnené, rovnako ako kód pre spustenie modelov z klientov PyTorch pre iné jazyky;
  • Libtorch, dostupný pre mobilné platformy, je oveľa objemnejší ako runtime ONNX, ale verzia modelu ONNX ešte nie je k dispozícii.

Zdroj: opennet.ru

Pridať komentár