Rilis baru dari sistem sintesis ucapan Silero

Rilis publik baru dari sistem sintesis ucapan jaringan saraf Silero Text-to-Speech telah tersedia. Proyek ini terutama ditujukan untuk menciptakan sistem sintesis ucapan modern dan berkualitas tinggi yang tidak kalah dengan solusi komersial dari perusahaan dan dapat diakses oleh semua orang tanpa menggunakan peralatan server yang mahal.

Model-model tersebut didistribusikan di bawah lisensi GNU AGPL, tetapi perusahaan yang mengembangkan proyek tersebut tidak mengungkapkan mekanisme untuk melatih model-model tersebut. Untuk menjalankannya, Anda dapat menggunakan PyTorch dan framework yang mendukung format ONNX. Sintesis ucapan di Silero didasarkan pada penggunaan algoritma jaringan saraf modern dan metode pemrosesan sinyal digital yang dimodifikasi secara mendalam.

Perlu dicatat bahwa masalah utama solusi jaringan saraf modern untuk sintesis ucapan adalah bahwa solusi tersebut sering kali hanya tersedia dalam solusi cloud berbayar, dan produk publik memiliki persyaratan perangkat keras yang tinggi, kualitasnya lebih rendah, atau tidak lengkap dan siap digunakan. produk. Misalnya, untuk menjalankan salah satu arsitektur sintesis end-to-end baru yang populer, VITS, dengan lancar dalam mode sintesis (yaitu, bukan untuk pelatihan model), diperlukan kartu video dengan VRAM lebih dari 16 gigabyte.

Bertentangan dengan tren saat ini, solusi Silero berjalan dengan sukses bahkan pada 1 thread x86 prosesor Intel dengan instruksi AVX2. Pada 4 thread prosesor, sintesis memungkinkan Anda melakukan sintesis dari 30 hingga 60 detik per detik dalam mode sintesis 8 kHz, dalam mode 24 kHz - 15-20 detik, dan dalam mode 48 kHz - sekitar 10 detik.

Fitur utama dari rilis Silero baru:

  • Ukuran model telah dikurangi 2 kali lipat menjadi 50 megabita;
  • Model tahu cara berhenti sejenak;
  • Tersedia 4 suara berkualitas tinggi dalam bahasa Rusia (dan suara acak yang jumlahnya tak terbatas). Contoh pengucapan;
  • Model ini menjadi 10 kali lebih cepat dan, misalnya, dalam mode 24 kHz memungkinkan Anda mensintesis audio hingga 20 detik per detik pada 4 thread prosesor;
  • Semua pilihan suara untuk satu bahasa dikemas ke dalam satu model;
  • Model dapat menerima seluruh paragraf teks sebagai masukan, tag SSML didukung;
  • Sintesis bekerja pada tiga frekuensi pengambilan sampel sekaligus untuk dipilih - 8, 24 dan 48 kilohertz;
  • “Masalah anak-anak” telah terpecahkan: ketidakstabilan dan kehilangan kata-kata;
  • Menambahkan bendera untuk mengontrol penempatan aksen otomatis dan penempatan huruf “е”.

Saat ini, untuk sintesis versi terbaru, 4 suara dalam bahasa Rusia telah tersedia untuk umum, namun dalam waktu dekat versi berikutnya akan diterbitkan dengan perubahan sebagai berikut:

  • Kecepatan sintesis akan meningkat 2-4 kali lipat lagi;
  • Model sintesis untuk bahasa CIS akan diperbarui: Kalmyk, Tatar, Uzbek, dan Ukraina;
  • Model untuk bahasa-bahasa Eropa akan ditambahkan;
  • Model untuk bahasa India akan ditambahkan;
  • Model untuk bahasa Inggris akan ditambahkan.

Beberapa kerusakan sistem yang melekat pada sintesis Silero:

  • Tidak seperti solusi sintesis tradisional seperti RHVoice, sintesis Silero tidak memiliki integrasi SAPI, klien yang mudah dipasang, atau integrasi untuk Windows dan Android;
  • Kecepatannya, meskipun sangat tinggi untuk solusi semacam itu, mungkin tidak cukup untuk sintesis langsung pada prosesor lemah dengan kualitas tinggi;
  • Solusi aksen otomatis tidak menangani homograf (kata-kata seperti kastil dan kastil) dan masih membuat kesalahan, namun hal ini akan diperbaiki pada rilis mendatang;
  • Versi sintesis saat ini tidak berfungsi pada prosesor tanpa instruksi AVX2 (atau Anda perlu mengubah pengaturan PyTorch secara khusus) karena salah satu modul di dalam model terkuantisasi;
  • Versi sintesis saat ini pada dasarnya memiliki ketergantungan PyTorch tunggal; semua isiannya “terprogram” di dalam model dan paket JIT. Kode sumber model tidak dipublikasikan, begitu pula kode untuk menjalankan model dari klien PyTorch untuk bahasa lain;
  • Libtorch, tersedia untuk platform seluler, jauh lebih besar daripada runtime ONNX, namun versi model ONNX belum tersedia.

Sumber: opennet.ru

Tambah komentar