Naujas Silero kalbos sintezės sistemos leidimas

Yra nauja vieša „Silero Text-to-Speech“ neuroninio tinklo kalbos sintezės sistemos versija. Projektu pirmiausia siekiama sukurti modernią aukštos kokybės kalbos sintezės sistemą, kuri nenusileidžia komerciniams korporacijų sprendimams ir yra prieinama visiems, nenaudojant brangios serverių įrangos.

Modeliai platinami pagal GNU AGPL licenciją, tačiau projektą vystanti įmonė modelių mokymo mechanizmo neatskleidžia. Norėdami paleisti, galite naudoti PyTorch ir sistemas, kurios palaiko ONNX formatą. Kalbos sintezė Silero yra pagrįsta giliai modifikuotų šiuolaikinių neuroninių tinklų algoritmų ir skaitmeninių signalų apdorojimo metodų naudojimu.

Pažymima, kad pagrindinė šiuolaikinių neuroninių tinklų kalbos sintezės problemų problema yra ta, kad jie dažnai yra prieinami tik kaip mokamų debesų sprendimų dalis, o viešiesiems produktams keliami aukšti techninės įrangos reikalavimai, prastesnė kokybė arba jie yra nebaigti ir paruošti naudoti produktai. . Pavyzdžiui, norint sklandžiai paleisti vieną iš naujų populiarių nuo galo iki galo sintezės architektūrų VITS sintezės režimu (ty ne modelio mokymui), reikalingos vaizdo plokštės su daugiau nei 16 gigabaitų VRAM.

Priešingai dabartinei tendencijai, Silero sprendimai sėkmingai veikia net 1 x86 gijoje Intel procesoriaus su AVX2 instrukcijomis. 4 procesoriaus gijose sintezė leidžia sintetinti nuo 30 iki 60 sekundžių per sekundę 8 kHz sintezės režimu, 24 kHz režimu - 15-20 sekundžių, o 48 kHz režimu - apie 10 sekundžių.

Pagrindinės naujojo Silero leidimo savybės:

  • Modelio dydis sumažintas 2 kartus iki 50 megabaitų;
  • Modeliai moka pristabdyti;
  • Galimi 4 aukštos kokybės balsai rusų kalba (ir begalė atsitiktinių). Tarimo pavyzdžiai;
  • Modeliai tapo 10 kartų greitesni ir, pavyzdžiui, 24 kHz režimu gali susintetinti iki 20 sekundžių garso per sekundę 4 procesoriaus gijose;
  • Visos balso parinktys vienai kalbai yra supakuotos į vieną modelį;
  • Modeliai gali priimti visas teksto pastraipas kaip įvestį, palaikomos SSML žymos;
  • Sintezė veikia iš karto trimis atrankos dažniais, iš kurių galima pasirinkti – 8, 24 ir 48 kilohercų;
  • Išspręstos „vaikų problemos“: nepastovumas ir žodžių praleidimas;
  • Pridėtos vėliavėlės, skirtos automatiniam diakritinių ženklų išdėstymui ir raidės „ё“ išdėstymui valdyti.

Dabar naujausiai sintezės versijai 4 balsai rusų kalba yra viešai prieinami, tačiau artimiausiu metu bus paskelbta kita versija su šiais pakeitimais:

  • Sintezės greitis padidės dar 2-4 kartus;
  • Bus atnaujinti NVS kalbų sintezės modeliai: kalmukų, totorių, uzbekų ir ukrainiečių;
  • Bus pridėti modeliai Europos kalboms;
  • Bus pridėti modeliai indų kalboms;
  • Bus pridedami modeliai anglų kalba.

Kai kurie sistemos gedimai, būdingi Silero sintezei, yra šie:

  • Skirtingai nuo tradicinių sintezės sprendimų, tokių kaip RHVoice, Silero synthesis neturi SAPI integracijos, lengvai įdiegiamų klientų ir Windows bei Android integracijų;
  • Sparta, nors ir precedento neturinti tokiam sprendimui, gali būti nepakankama greitam sintezei naudojant silpnus aukštos kokybės procesorius;
  • Automatinis streso sprendimas neapdoroja homografų (žodžių, pvz., pilis ir pilis) ir vis tiek daro klaidų, tačiau šis trūkumas bus ištaisytas būsimose versijose;
  • Dabartinė sintezės versija neveikia procesoriuose be AVX2 instrukcijų (arba reikia specialiai pakeisti PyTorch nustatymus), nes vienas iš modelio modulių yra kvantuotas;
  • Dabartinė sintezės versija iš esmės turi vienintelę „PyTorch“ priklausomybę, visa įdara yra „įdėta“ modelio ir JIT paketų viduje. Modelių šaltiniai neskelbiami, kaip ir kitų kalbų modelių paleidimo iš PyTorch klientų kodas;
  • Mobiliosioms platformoms prieinamas „libtorch“ yra daug sudėtingesnis nei ONNX vykdymo laikas, tačiau modelio ONNX versija dar nepateikiama.

Šaltinis: opennet.ru

Добавить комментарий