Kõnesünteesisüsteemi Silero uus väljalase

Närvivõrgu kõnesünteesisüsteemi Silero Text-to-Speech uus avalik väljalase on saadaval. Projekti eesmärk on eelkõige luua kaasaegne ja kvaliteetne kõnesünteesisüsteem, mis ei jää alla ettevõtete kommertslahendustele ja on kõigile kättesaadav ilma kalleid serveriseadmeid kasutamata.

Mudeleid levitatakse GNU AGPL litsentsi all, kuid projekti arendav ettevõte ei avalda mudelite koolitamise mehhanismi. Käitamiseks saate kasutada PyTorchi ja ONNX-vormingut toetavaid raamistikke. Silero kõnesüntees põhineb sügavalt modifitseeritud kaasaegsete närvivõrgu algoritmide ja digitaalsete signaalitöötlusmeetodite kasutamisel.

Märgitakse, et kõnesünteesi kaasaegsete närvivõrgulahenduste põhiprobleemiks on see, et need on sageli saadaval ainult tasuliste pilvelahenduste raames ning avalikele toodetele on kõrged riistvaranõuded, need on madalama kvaliteediga või ei ole komplektsed ja kasutusvalmis. tooted. Näiteks ühe uue populaarse lõppsünteesiarhitektuuri VITSi sujuvaks käitamiseks sünteesirežiimis (st mitte mudelitreeningu jaoks) on vaja rohkem kui 16 gigabaidise VRAM-iga videokaarte.

Vastupidiselt praegusele trendile töötavad Silero lahendused edukalt isegi AVX1 juhistega Inteli protsessori 86 x2 lõimel. 4 protsessori lõimel võimaldab süntees sünteesida 30 kHz sünteesirežiimis 60 kuni 8 sekundit sekundis, 24 kHz režiimis 15-20 sekundit ja 48 kHz režiimis umbes 10 sekundit.

Uue Silero väljaande põhifunktsioonid:

  • Mudeli suurust on vähendatud 2 korda 50 megabaidile;
  • Modellid teavad, kuidas pausi teha;
  • Saadaval on 4 kvaliteetset venekeelset häält (ja lõpmatu arv juhuslikke). Hääldusnäited;
  • Mudelid on muutunud 10 korda kiiremaks ja näiteks 24 kHz režiimis võimaldavad 20 protsessori lõimel sünteesida kuni 4 sekundit heli sekundis;
  • Kõik ühe keele häälevalikud on pakitud ühte mudelisse;
  • Mudelid saavad sisendiks aktsepteerida terveid tekstilõike, toetatakse SSML-i silte;
  • Süntees töötab korraga kolmel diskreetimissagedusel, mille vahel valida – 8, 24 ja 48 kilohertsi;
  • “Laste probleemid” on lahendatud: ebastabiilsus ja sõnade puudumine;
  • Lisatud lipud rõhumärkide automaatse paigutuse ja tähe “е” paigutuse juhtimiseks.

Praegu on sünteesi uusima versiooni jaoks avalikult saadaval 4 venekeelset häält, kuid lähiajal avaldatakse järgmine versioon järgmiste muudatustega:

  • Sünteesi kiirus suureneb veel 2-4 korda;
  • Uuendatakse SRÜ keelte sünteesimudeleid: kalmõki, tatari, usbeki ja ukraina;
  • Lisatakse Euroopa keelte mudelid;
  • India keelte mudelid lisatakse;
  • Lisanduvad ingliskeelsed mudelid.

Mõned Silero sünteesile omased süsteemirikked:

  • Erinevalt traditsioonilisematest sünteesilahendustest, nagu RHVoice, ei ole Silero sünteesil SAPI integratsiooni, hõlpsasti installitavaid kliente ega integratsioone Windowsi ja Androidi jaoks;
  • Kiirus, kuigi sellise lahenduse jaoks enneolematult suur, ei pruugi olla piisav kõrge kvaliteediga nõrkade protsessorite käigupealseks sünteesiks;
  • Automaataktsendi lahendus ei käsitle homograafe (sõnad nagu loss ja loss) ja teeb endiselt vigu, kuid see parandatakse tulevastes väljaannetes;
  • Praegune sünteesiversioon ei tööta protsessoritel, kus pole AVX2 juhiseid (või peate PyTorchi sätteid spetsiaalselt muutma), kuna üks mudeli sees olev moodul on kvantiseeritud;
  • Sünteesi praegusel versioonil on sisuliselt üks PyTorchi sõltuvus; kogu täidis on mudeli ja JIT-pakettide sees "juhtmega ühendatud". Mudelite lähtekoode ei avaldata, nagu ka PyTorchi klientide mudelite käitamise koodi teiste keelte jaoks;
  • Mobiilplatvormidele saadaval olev Libtorch on palju mahukam kui ONNX-i käitusaeg, kuid mudeli ONNX-versioon pole veel saadaval.

Allikas: opennet.ru

Lisa kommentaar