Keluaran baharu sistem sintesis pertuturan Silero

Keluaran awam baharu sistem sintesis pertuturan rangkaian neural Text-to-Speech Silero tersedia. Projek ini bertujuan terutamanya untuk mencipta sistem sintesis pertuturan moden dan berkualiti tinggi yang tidak kalah dengan penyelesaian komersial daripada syarikat dan boleh diakses oleh semua orang tanpa menggunakan peralatan pelayan yang mahal.

Model tersebut diedarkan di bawah lesen GNU AGPL, tetapi syarikat yang membangunkan projek itu tidak mendedahkan mekanisme untuk melatih model tersebut. Untuk menjalankan, anda boleh menggunakan PyTorch dan rangka kerja yang menyokong format ONNX. Sintesis pertuturan dalam Silero adalah berdasarkan penggunaan algoritma rangkaian saraf moden yang diubah suai secara mendalam dan kaedah pemprosesan isyarat digital.

Adalah diperhatikan bahawa masalah utama penyelesaian rangkaian saraf moden untuk sintesis pertuturan ialah ia selalunya tersedia hanya dalam penyelesaian awan berbayar, dan produk awam mempunyai keperluan perkakasan yang tinggi, berkualiti rendah, atau tidak lengkap dan sedia untuk digunakan. produk. Contohnya, untuk menjalankan salah satu seni bina sintesis hujung-ke-hujung baharu yang popular, VITS, dengan lancar dalam mod sintesis (iaitu, bukan untuk latihan model), kad video dengan lebih daripada 16 gigabait VRAM diperlukan.

Bertentangan dengan aliran semasa, penyelesaian Silero berjalan dengan jayanya walaupun pada benang 1 x86 pemproses Intel dengan arahan AVX2. Pada 4 utas pemproses, sintesis membolehkan anda mensintesis dari 30 hingga 60 saat sesaat dalam mod sintesis 8 kHz, dalam mod 24 kHz - 15-20 saat, dan dalam mod 48 kHz - kira-kira 10 saat.

Ciri utama keluaran Silero baharu:

  • Saiz model telah dikurangkan sebanyak 2 kali kepada 50 megabait;
  • Model tahu cara berhenti seketika;
  • 4 suara berkualiti tinggi dalam bahasa Rusia tersedia (dan bilangan rawak yang tidak terhingga). Contoh sebutan;
  • Model telah menjadi 10 kali lebih pantas dan, sebagai contoh, dalam mod 24 kHz ia membenarkan anda mensintesis sehingga 20 saat audio sesaat pada 4 utas pemproses;
  • Semua pilihan suara untuk satu bahasa dibungkus ke dalam satu model;
  • Model boleh menerima keseluruhan perenggan teks sebagai input, teg SSML disokong;
  • Sintesis berfungsi sekali gus dalam tiga frekuensi pensampelan untuk dipilih - 8, 24 dan 48 kilohertz;
  • "Masalah kanak-kanak" telah diselesaikan: ketidakstabilan dan perkataan yang hilang;
  • Menambah bendera untuk mengawal peletakan automatik aksen dan peletakan huruf "Π΅".

Pada masa ini, untuk versi terbaharu sintesis, 4 suara dalam bahasa Rusia tersedia secara terbuka, tetapi dalam masa terdekat versi seterusnya akan diterbitkan dengan perubahan berikut:

  • Kadar sintesis akan meningkat lagi 2-4 kali;
  • Model sintesis untuk bahasa CIS akan dikemas kini: Kalmyk, Tatar, Uzbekistan dan Ukraine;
  • Model untuk bahasa Eropah akan ditambah;
  • Model untuk bahasa India akan ditambah;
  • Model untuk bahasa Inggeris akan ditambah.

Beberapa kerosakan sistem yang wujud dalam sintesis Silero:

  • Tidak seperti penyelesaian sintesis yang lebih tradisional seperti RHVoice, sintesis Silero tidak mempunyai penyepaduan SAPI, pelanggan yang mudah dipasang atau penyepaduan untuk Windows dan Android;
  • Kelajuan, walaupun tidak pernah berlaku sebelum ini tinggi untuk penyelesaian sedemikian, mungkin tidak mencukupi untuk sintesis on-the-fly pada pemproses lemah pada kualiti tinggi;
  • Penyelesaian autoaksen tidak mengendalikan homograf (perkataan seperti istana dan istana) dan masih melakukan kesilapan, tetapi ini akan diperbetulkan dalam keluaran akan datang;
  • Versi semasa sintesis tidak berfungsi pada pemproses tanpa arahan AVX2 (atau anda perlu menukar tetapan PyTorch secara khusus) kerana salah satu modul di dalam model dikuantisasi;
  • Versi semasa sintesis pada asasnya mempunyai satu kebergantungan PyTorch; semua pemadat adalah "berkabel" di dalam model dan pakej JIT. Kod sumber model tidak diterbitkan, serta kod untuk menjalankan model daripada klien PyTorch untuk bahasa lain;
  • Libtorch, tersedia untuk platform mudah alih, jauh lebih besar daripada masa jalan ONNX, tetapi versi model ONNX masih belum tersedia.

Sumber: opennet.ru

Tambah komen