Rilis anyar sistem sintesis wicara Silero

Rilis umum anyar saka sistem sintesis wicara jaringan syaraf Silero Text-to-Speech kasedhiya. Proyek kasebut utamane kanggo nggawe sistem sintesis wicara modern lan berkualitas tinggi sing ora kalah karo solusi komersial saka perusahaan lan bisa diakses kabeh wong tanpa nggunakake peralatan server sing larang.

Model kasebut disebarake ing sangisore lisensi GNU AGPL, nanging perusahaan sing ngembangake proyek kasebut ora ngumumake mekanisme kanggo latihan model kasebut. Kanggo mbukak, sampeyan bisa nggunakake PyTorch lan kerangka kerja sing ndhukung format ONNX. Sintesis wicara ing Silero adhedhasar panggunaan algoritma jaringan saraf modern sing diowahi banget lan metode pangolahan sinyal digital.

Kacathet yen masalah utama solusi jaringan saraf modern kanggo sintesis wicara yaiku asring kasedhiya mung ing solusi maya sing dibayar, lan produk umum duwe syarat hardware sing dhuwur, kualitas sing luwih murah, utawa ora lengkap lan siap digunakake. produk. Contone, kanggo mbukak salah siji saka arsitektur sintesis end-to-end populer anyar, VITS, lancar ing mode sintesis (yaiku, ora kanggo latihan model), kertu video karo luwih saka 16 gigabyte VRAM dibutuhake.

Beda karo tren saiki, solusi Silero bisa sukses sanajan ing benang 1 x86 prosesor Intel kanthi instruksi AVX2. Ing 4 benang prosesor, sintesis ngidini sampeyan nyintesis saka 30 nganti 60 detik per detik ing mode sintesis 8 kHz, ing mode 24 kHz - 15-20 detik, lan ing mode 48 kHz - kira-kira 10 detik.

Fitur utama rilis Silero anyar:

  • Ukuran model wis suda kaping 2 dadi 50 megabyte;
  • Model ngerti carane ngaso;
  • 4 swara kualitas dhuwur ing Rusia kasedhiya (lan nomer tanpa wates acak). Tuladha lafal;
  • Model wis dadi 10 kaping luwih cepet lan, contone, ing mode 24 kHz ngijini sampeyan kanggo synthesize nganti 20 detik audio per detik ing 4 Utas prosesor;
  • Kabeh opsi swara kanggo siji basa dirangkep dadi siji model;
  • Model bisa nampa kabeh paragraf teks minangka input, tag SSML didhukung;
  • Sintesis dianggo bebarengan ing telung frekuensi sampling kanggo milih saka - 8, 24 lan 48 kilohertz;
  • "Masalah bocah-bocah" wis ditanggulangi: ketidakstabilan lan tembung sing ilang;
  • GendΓ©ra sing ditambahake kanggo ngontrol panggonan otomatis aksen lan panggonan huruf "Π΅".

Saiki, kanggo versi sintesis paling anyar, 4 swara ing basa Rusia kasedhiya kanggo umum, nanging ing mangsa ngarep versi sabanjure bakal diterbitake kanthi owah-owahan ing ngisor iki:

  • Tingkat sintesis bakal nambah 2-4 kaping liyane;
  • Model sintesis kanggo basa CIS bakal dianyari: Kalmyk, Tatar, Uzbek lan Ukrainia;
  • Model kanggo basa Eropa bakal ditambahake;
  • Model kanggo basa India bakal ditambahake;
  • Model kanggo basa Inggris bakal ditambahake.

Sawetara kerusakan sistem sing ana ing sintesis Silero:

  • Ora kaya solusi sintesis tradisional kayata RHVoice, sintesis Silero ora duwe integrasi SAPI, klien sing gampang diinstal, utawa integrasi kanggo Windows lan Android;
  • Kacepetan, sanajan dhuwur banget kanggo solusi kasebut, bisa uga ora cukup kanggo sintesis on-the-fly ing prosesor sing lemah kanthi kualitas dhuwur;
  • Solusi otomatis aksen ora nangani homographs (tembung kaya kastil lan kastil) lan isih nggawe kesalahane, nanging iki bakal didandani ing release mangsa;
  • Versi sintesis saiki ora bisa digunakake ing prosesor tanpa instruksi AVX2 (utawa sampeyan kudu ngganti setelan PyTorch khusus) amarga salah sawijining modul ing model kasebut dikuantisasi;
  • Versi sintesis saiki sejatine duwe katergantungan PyTorch siji; kabeh isi kasebut "hardwired" ing model lan paket JIT. Kode sumber model ora diterbitake, uga kode kanggo model mlaku saka klien PyTorch kanggo basa liyane;
  • Libtorch, kasedhiya kanggo platform seluler, luwih akeh tinimbang runtime ONNX, nanging versi model ONNX durung kasedhiya.

Source: opennet.ru

Add a comment