Silero ярианы синтезийн системийн шинэ хувилбар

Silero Text-to-Speech мэдрэлийн сүлжээний ярианы синтезийн системийн шинэ олон нийтийн хувилбар бэлэн боллоо. Төсөл нь юуны түрүүнд корпорациудын арилжааны шийдлүүдээс дутахгүй, үнэтэй серверийн тоног төхөөрөмж ашиглахгүйгээр хүн бүрт хүртээмжтэй, орчин үеийн, өндөр чанартай ярианы синтезийн системийг бий болгоход чиглэгддэг.

Загваруудыг GNU AGPL лицензийн дагуу түгээдэг боловч төслийг боловсруулж буй компани загваруудыг сургах механизмыг дэлгээгүй байна. Ажиллуулахын тулд та PyTorch болон ONNX форматыг дэмждэг хүрээг ашиглаж болно. Silero дахь ярианы синтез нь гүн гүнзгий өөрчлөгдсөн орчин үеийн мэдрэлийн сүлжээний алгоритмууд болон дижитал дохио боловсруулах аргуудыг ашиглахад суурилдаг.

Ярианы синтезийн орчин үеийн мэдрэлийн сүлжээний шийдлүүдийн гол асуудал бол тэдгээр нь ихэвчлэн төлбөртэй үүлэн шийдлүүдийн хүрээнд байдаг бөгөөд нийтийн бүтээгдэхүүнүүд нь техник хангамжийн өндөр шаардлага тавьдаг, чанар муутай, эсвэл бүрэн гүйцэд, ашиглахад бэлэн биш байдаг гэдгийг тэмдэглэв. бүтээгдэхүүн. Жишээлбэл, шинэ алдартай төгсгөл хоорондын синтезийн архитектуруудын нэг болох VITS-ийг синтезийн горимд жигд ажиллуулахын тулд (өөрөөр хэлбэл загвар сургалтанд зориулагдаагүй) 16 гигабайтаас дээш VRAM бүхий видео карт шаардлагатай.

Одоогийн чиг хандлагаас ялгаатай нь Silero шийдэл нь AVX1 заавар бүхий Intel процессорын 86 x2 утас дээр ч амжилттай ажилладаг. 4 процессорын утаснуудад синтез нь 30 кГц-ийн синтезийн горимд секундэд 60-8 секунд, 24 кГц-ийн горимд - 15-20 секунд, 48 кГц-ийн горимд - 10 секунд орчим синтез хийх боломжийг олгодог.

Шинэ Silero хувилбарын гол онцлогууд:

  • Загварын хэмжээ 2 дахин буурч, 50 мегабайт болсон;
  • Загвар өмсөгчид хэрхэн түр зогсоохыг мэддэг;
  • Орос хэл дээрх 4 өндөр чанартай дуу хоолой (мөн хязгааргүй тооны санамсаргүй) боломжтой. Дуудлага хийх жишээ;
  • Загварууд нь 10 дахин хурдан болсон бөгөөд жишээлбэл, 24 кГц горимд тэд 20 процессорын утас дээр секундэд 4 секунд хүртэлх аудио синтез хийх боломжийг олгодог;
  • Нэг хэлний бүх дуу хоолойны сонголтуудыг нэг загварт багтаасан болно;
  • Загварууд нь текстийн догол мөрийг бүхэлд нь оруулах боломжтой, SSML хаягуудыг дэмждэг;
  • Синтез нь 8, 24, 48 килогерц гэсэн гурван түүвэрлэлтийн давтамжтайгаар нэг дор ажилладаг;
  • "Хүүхдийн асуудал" шийдэгдсэн: тогтворгүй байдал, үг дутуу;
  • Өргөлтийн автомат байрлал болон “е” үсгийн байршлыг хянах тугуудыг нэмсэн.

Одоогийн байдлаар синтезийн хамгийн сүүлийн хувилбарын хувьд орос хэл дээрх 4 дуу хоолой олон нийтэд нээлттэй байгаа боловч ойрын ирээдүйд дараах өөрчлөлтүүдтэй дараагийн хувилбарыг нийтлэх болно.

  • Синтезийн хурд дахин 2-4 дахин нэмэгдэх болно;
  • ТУХН-ийн хэлний синтезийн загварууд шинэчлэгдэх болно: Халимаг, Татар, Узбек, Украин;
  • Европ хэлний загварууд нэмэгдэх болно;
  • Энэтхэг хэлний загварууд нэмэгдэх болно;
  • Англи хэлний загварууд нэмэгдэх болно.

Silero синтезийн зарим системийн эвдрэлүүд:

  • RHVoice гэх мэт уламжлалт синтезийн шийдлүүдээс ялгаатай нь Silero синтез нь SAPI интеграцчлал, суулгахад хялбар үйлчлүүлэгчид эсвэл Windows болон Android-д зориулсан интеграцчлалгүй;
  • Ийм шийдлийн хувьд урьд өмнө хэзээ ч байгаагүй өндөр хурдтай байсан ч өндөр чанартай сул процессор дээр шууд синтез хийхэд хангалтгүй байж магадгүй юм;
  • Автомат өргөлтийн шийдэл нь гомограф (цайз, цайз гэх мэт үгс)-тэй харьцдаггүй бөгөөд алдаа гаргасаар байгаа боловч дараагийн хувилбаруудад үүнийг засах болно;
  • Синтезийн одоогийн хувилбар нь AVX2 зааваргүй процессорууд дээр ажиллахгүй (эсвэл та PyTorch тохиргоог тусгайлан өөрчлөх шаардлагатай), учир нь загвар доторх модулиудын аль нэг нь квантлагдсан байдаг;
  • Синтезийн одоогийн хувилбар нь үндсэндээ ганц PyTorch-ийн хамааралтай; бүх дүүргэлт нь загвар болон JIT багц дотор "хатуу холбогдсон". Загваруудын эх код, түүнчлэн бусад хэл дээрх PyTorch үйлчлүүлэгчдээс загвар ажиллуулах кодыг нийтлээгүй;
  • Гар утасны платформд ашиглах боломжтой Libtorch нь ONNX-ийн ажиллах хугацаанаас хамаагүй том боловч загварын ONNX хувилбар хараахан гараагүй байна.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх