Silero puhesynteesijärjestelmän uusi julkaisu

Uusi julkinen julkaisu Silero Text-to-Speech -hermoverkon puhesynteesijärjestelmästä on saatavilla. Hankkeen ensisijaisena tavoitteena on luoda moderni, laadukas puhesynteesijärjestelmä, joka ei ole huonompi kuin yritysten kaupalliset ratkaisut ja on kaikkien saatavilla ilman kalliita palvelinlaitteita.

Mallit jaetaan GNU AGPL -lisenssillä, mutta projektia kehittävä yritys ei paljasta mallien koulutuksen mekanismia. Suoritamiseen voit käyttää PyTorchia ja ONNX-muotoa tukevia kehyksiä. Sileron puhesynteesi perustuu syvästi muunnettujen nykyaikaisten hermoverkkoalgoritmien ja digitaalisten signaalinkäsittelymenetelmien käyttöön.

On huomattava, että puhesynteesin nykyaikaisten hermoverkkoratkaisujen pääongelma on, että ne ovat usein saatavilla vain maksullisissa pilviratkaisuissa ja julkisilla tuotteilla on korkeat laitteistovaatimukset, ne ovat huonolaatuisempia tai ne eivät ole täydellisiä ja käyttövalmiita. Tuotteet. Jotta esimerkiksi yksi uusista suosituista päästä päähän -synteesiarkkitehtuureja, VITS, voidaan ajaa sujuvasti synteesitilassa (eli ei mallikoulutukseen), tarvitaan näytönohjainkortteja, joissa on yli 16 gigatavua VRAM-muistia.

Vastoin nykytrendiä Silero-ratkaisut toimivat onnistuneesti jopa 1 x86-säikeellä Intel-prosessorilla AVX2-ohjeilla. 4 prosessorisäikeellä synteesi antaa sinun syntetisoida 30-60 sekuntia sekunnissa 8 kHz synteesitilassa, 24 kHz -tilassa - 15-20 sekuntia ja 48 kHz -tilassa - noin 10 sekuntia.

Uuden Silero-julkaisun tärkeimmät ominaisuudet:

  • Mallin kokoa on pienennetty 2 kertaa 50 megatavuun;
  • Mallit osaavat pysähtyä;
  • Saatavilla on 4 korkealaatuista venäjänkielistä ääntä (ja ääretön määrä satunnaisia). Esimerkkejä ääntämisestä;
  • Malleista on tullut 10 kertaa nopeampia ja esimerkiksi 24 kHz -tilassa niiden avulla voit syntetisoida jopa 20 sekuntia ääntä sekunnissa 4 prosessorisäikeellä;
  • Kaikki yhden kielen äänivaihtoehdot on pakattu yhteen malliin;
  • Mallit voivat hyväksyä kokonaisia ​​tekstikappaleita syötteenä, SSML-tunnisteita tuetaan;
  • Synteesi toimii kerralla kolmella näytteenottotaajuudella, joista valita - 8, 24 ja 48 kilohertsiä;
  • "Lasten ongelmat" on ratkaistu: epävakaus ja puuttuvat sanat;
  • Lisätty liput ohjaamaan automaattista aksenttimerkkien sijoittelua ja kirjaimen “е” sijoittamista.

Tällä hetkellä synteesin uusimmasta versiosta 4 venäjänkielistä ääntä on julkisesti saatavilla, mutta lähitulevaisuudessa julkaistaan ​​seuraava versio seuraavin muutoksin:

  • Synteesinopeus kasvaa vielä 2-4 kertaa;
  • IVY-kielten synteesimallit päivitetään: kalmyk, tatari, uzbekki ja ukraina;
  • Malleja eurooppalaisille kielille lisätään;
  • Malleja Intian kielille lisätään;
  • Englanninkieliset mallit lisätään.

Jotkut Silero-synteesiin sisältyvistä järjestelmähäiriöistä:

  • Toisin kuin perinteisemmät synteesiratkaisut, kuten RHVoice, Silero synthesisissä ei ole SAPI-integraatiota, helposti asennettavia asiakkaita tai integraatioita Windowsille ja Androidille;
  • Nopeus, vaikkakin ennennäkemättömän korkea tällaiselle ratkaisulle, ei välttämättä riitä lennossa tapahtuvaan synteesiin heikkolaatuisilla prosessoreilla;
  • Automaattinen aksenttiratkaisu ei käsittele homografeja (sanoja kuten linna ja linna) ja tekee silti virheitä, mutta tämä korjataan tulevissa julkaisuissa;
  • Synteesin nykyinen versio ei toimi prosessoreissa ilman AVX2-käskyjä (tai sinun on erityisesti muutettava PyTorch-asetuksia), koska yksi mallin sisällä olevista moduuleista on kvantisoitu;
  • Nykyisessä synteesin versiossa on käytännössä yksi PyTorch-riippuvuus; kaikki täyte on "kiinnitetty" mallin ja JIT-pakettien sisään. Mallien lähdekoodeja ei julkaista, samoin kuin PyTorch-asiakkaiden mallien ajokoodi muille kielille;
  • Mobiilialustoille saatavilla oleva Libtorch on paljon isompi kuin ONNX-ajoaika, mutta mallista ei ole vielä saatavilla ONNX-versiota.

Lähde: opennet.ru

Lisää kommentti