Bag-ong pagpagawas sa Silero speech synthesis system

Usa ka bag-ong publiko nga pagpagawas sa Silero Text-to-Speech neural network speech synthesis system anaa. Ang proyekto nag-una nga gitumong sa paghimo sa usa ka moderno, taas nga kalidad nga speech synthesis system nga dili ubos sa komersyal nga mga solusyon gikan sa mga korporasyon ug ma-access sa tanan nga walay paggamit sa mahal nga kagamitan sa server.

Ang mga modelo gipang-apod-apod ubos sa lisensya sa GNU AGPL, apan ang kompanya nga nagpalambo sa proyekto wala magbutyag sa mekanismo sa pagbansay sa mga modelo. Aron makadagan, mahimo nimong gamiton ang PyTorch ug mga frameworks nga nagsuporta sa ONNX format. Ang synthesis sa sinultihan sa Silero gibase sa paggamit sa labi nga giusab nga moderno nga mga algorithm sa neural network ug mga pamaagi sa pagproseso sa digital signal.

Namatikdan nga ang nag-unang problema sa modernong mga solusyon sa neural network alang sa speech synthesis mao nga kini kasagaran anaa lamang sulod sa bayad nga mga solusyon sa panganod, ug ang mga produkto sa publiko adunay taas nga mga kinahanglanon sa hardware, mas ubos ang kalidad, o dili kompleto ug andam nga gamiton. mga produkto. Pananglitan, aron mapadagan ang usa sa bag-ong sikat nga end-to-end synthesis architecture, VITS, hapsay sa synthesis mode (nga mao, dili alang sa pagbansay sa modelo), gikinahanglan ang mga video card nga adunay labaw sa 16 gigabytes sa VRAM.

Sukwahi sa karon nga uso, ang mga solusyon sa Silero malampuson nga nagdagan bisan sa 1 x86 nga hilo sa usa ka Intel processor nga adunay mga panudlo sa AVX2. Sa 4 nga mga thread sa processor, ang synthesis nagtugot kanimo sa pag-synthesize gikan sa 30 hangtod 60 segundos matag segundo sa 8 kHz synthesis mode, sa 24 kHz mode - 15-20 segundos, ug sa 48 kHz mode - mga 10 segundos.

Pangunang bahin sa bag-ong pagpagawas sa Silero:

  • Ang gidak-on sa modelo gipakunhod sa 2 ka beses ngadto sa 50 megabytes;
  • Ang mga modelo nahibalo kon unsaon paghunong;
  • Adunay 4 ka taas nga kalidad nga mga tingog sa Russian (ug usa ka walay katapusan nga gidaghanon sa mga random). Mga pananglitan sa paglitok;
  • Ang mga modelo nahimo nga 10 ka beses nga mas paspas ug, pananglitan, sa 24 kHz mode sila nagtugot kanimo sa pag-synthesize hangtod sa 20 segundos nga audio matag segundo sa 4 nga mga thread sa processor;
  • Ang tanan nga mga kapilian sa tingog alang sa usa ka pinulongan giputos sa usa ka modelo;
  • Ang mga modelo mahimong modawat sa tibuok nga parapo sa teksto isip input, SSML tag gisuportahan;
  • Ang synthesis naglihok sa makausa sa tulo ka sampling frequency nga mapilian - 8, 24 ug 48 kilohertz;
  • Nasulbad na ang "mga problema sa mga bata": pagkawalay kalig-on ug nawala nga mga pulong;
  • Gidugang nga mga bandila aron makontrol ang awtomatik nga pagbutang sa mga accent ug ang pagbutang sa letra nga "Π΅".

Sa pagkakaron, alang sa pinakabag-o nga bersyon sa synthesis, 4 nga mga tingog sa Russian ang magamit sa publiko, apan sa umaabot nga umaabot ang sunod nga bersyon ipatik uban sa mosunod nga mga kausaban:

  • Ang rate sa synthesis modugang sa laing 2-4 ka beses;
  • Ang mga modelo sa synthesis alang sa mga pinulongan sa CIS ma-update: Kalmyk, Tatar, Uzbek ug Ukrainian;
  • Ang mga modelo alang sa mga pinulongan sa Europe idugang;
  • Ang mga modelo alang sa mga sinultian sa India idugang;
  • Ang mga modelo alang sa English idugang.

Pipila sa mga pagkaguba sa sistema nga kinaiyanhon sa Silero synthesis:

  • Dili sama sa mas tradisyonal nga mga solusyon sa synthesis sama sa RHVoice, ang Silero synthesis walay SAPI integration, sayon-sa-instalar nga mga kliyente, o integrations alang sa Windows ug Android;
  • Ang katulin, bisan tuod taas kaayo alang sa ingon nga solusyon, mahimong dili igo alang sa on-the-fly synthesis sa huyang nga mga processor sa taas nga kalidad;
  • Ang auto-accent nga solusyon wala magdumala sa mga homographs (mga pulong sama sa kastilyo ug kastilyo) ug makahimo gihapon og mga sayop, apan kini matul-id sa umaabot nga mga pagpagawas;
  • Ang kasamtangan nga bersyon sa synthesis dili molihok sa mga processor nga walay AVX2 nga mga instruksyon (o kinahanglan nimo nga espesipikong usbon ang mga setting sa PyTorch) tungod kay ang usa sa mga module sa sulod sa modelo gi-quantize;
  • Ang kasamtangan nga bersyon sa synthesis sa esensya adunay usa ka dependency sa PyTorch; ang tanan nga pagpuno kay "hardwired" sa sulod sa modelo ug JIT nga mga pakete. Ang mga source code sa mga modelo wala gipatik, ingon man ang code alang sa pagpadagan sa mga modelo gikan sa mga kliyente sa PyTorch alang sa ubang mga pinulongan;
  • Ang Libtorch, nga magamit alang sa mga mobile platform, mas dako kaysa ONNX runtime, apan ang usa ka ONNX nga bersyon sa modelo wala pa magamit.

Source: opennet.ru

Idugang sa usa ka comment