Silero nitq sintezi sisteminin yeni buraxılışı

Silero Text-to-Speech neyron şəbəkə nitq sintezi sisteminin yeni ictimai buraxılışı mövcuddur. Layihə ilk növbədə korporasiyaların kommersiya həllərindən geri qalmayan və bahalı server avadanlıqlarından istifadə etmədən hər kəs üçün əlçatan olan müasir, yüksək keyfiyyətli nitq sintezi sisteminin yaradılmasına yönəlib.

Modellər GNU AGPL lisenziyası əsasında paylanır, lakin layihəni hazırlayan şirkət modellərin öyrədilməsi mexanizmini açıqlamır. Çalıştırmaq üçün siz PyTorch və ONNX formatını dəstəkləyən çərçivələrdən istifadə edə bilərsiniz. Silero-da nitq sintezi dərindən dəyişdirilmiş müasir neyron şəbəkəsi alqoritmlərinin və rəqəmsal siqnalların emalı metodlarının istifadəsinə əsaslanır.

Qeyd edilir ki, nitq sintezi üçün müasir neyroşəbəkə həllərinin əsas problemi onların çox vaxt yalnız pullu bulud həlləri daxilində mövcud olması və ictimai məhsulların yüksək texniki tələblərə malik olması, keyfiyyətinin aşağı olması və ya tam və istifadəyə hazır olmamasıdır. məhsullar. Məsələn, yeni populyar ucdan-uca sintez arxitekturalarından birini, VITS-i sintez rejimində rəvan işləmək üçün (yəni model təlimi üçün deyil) 16 giqabaytdan çox VRAM-a malik video kartlar tələb olunur.

Mövcud tendensiyadan fərqli olaraq, Silero həlləri hətta AVX1 təlimatları ilə Intel prosessorunun 86 x2 ipində uğurla işləyir. 4 prosessor ipində sintez 30 kHz sintez rejimində saniyədə 60-dan 8 saniyəyə qədər, 24 kHz rejimində - 15-20 saniyə, 48 kHz rejimində isə təxminən 10 saniyə sintez etməyə imkan verir.

Yeni Silero buraxılışının əsas xüsusiyyətləri:

  • Modelin ölçüsü 2 dəfə azalaraq 50 meqabayta endirilib;
  • Modellər fasilə verməyi bilir;
  • Rus dilində 4 yüksək keyfiyyətli səs mövcuddur (və sonsuz sayda təsadüfi olanlar). Tələffüz nümunələri;
  • Modellər 10 dəfə sürətləndi və məsələn, 24 kHz rejimində onlar 20 prosessor telində saniyədə 4 saniyəyə qədər səs sintez etməyə imkan verir;
  • Bir dil üçün bütün səs seçimləri bir modeldə paketlənmişdir;
  • Modellər mətnin bütün paraqraflarını giriş kimi qəbul edə bilər, SSML teqləri dəstəklənir;
  • Sintez eyni anda üç seçmə tezliyində işləyir - 8, 24 və 48 kiloherts;
  • "Uşaq problemləri" həll edildi: qeyri-sabitlik və itkin sözlər;
  • Vurğuların avtomatik yerləşdirilməsinə və “е” hərfinin yerləşdirilməsinə nəzarət etmək üçün bayraqlar əlavə edildi.

Hazırda sintezin ən yeni versiyası üçün rus dilində 4 səs ictimaiyyətə açıqdır, lakin yaxın gələcəkdə növbəti versiya aşağıdakı dəyişikliklərlə nəşr olunacaq:

  • Sintez sürəti daha 2-4 dəfə artacaq;
  • MDB dilləri üçün sintez modelləri yenilənəcək: Kalmık, Tatar, Özbək və Ukrayna;
  • Avropa dilləri üçün modellər əlavə olunacaq;
  • Hindistan dilləri üçün modellər əlavə olunacaq;
  • İngilis dili üçün modellər əlavə olunacaq.

Silero sintezinə xas olan bəzi sistem pozğunluqları:

  • RHVoice kimi daha ənənəvi sintez həllərindən fərqli olaraq, Silero sintezində SAPI inteqrasiyası, quraşdırması asan müştərilər və ya Windows və Android üçün inteqrasiyalar yoxdur;
  • Sürət, belə bir həll üçün görünməmiş dərəcədə yüksək olsa da, yüksək keyfiyyətdə zəif prosessorlarda tez sintez üçün kifayət olmaya bilər;
  • Avtomatik vurğu həlli omoqrafları (qala və qala kimi sözlər) idarə etmir və hələ də səhvlərə yol verir, lakin bu, gələcək buraxılışlarda düzəldiləcək;
  • Sintezin cari versiyası AVX2 təlimatları olmayan prosessorlarda işləmir (yaxud xüsusi olaraq PyTorch parametrlərini dəyişdirməlisiniz), çünki modelin içərisindəki modullardan biri kvantlaşdırılıb;
  • Sintezin hazırkı versiyası mahiyyətcə tək bir PyTorch asılılığına malikdir; bütün doldurma model və JIT paketlərinin içərisində "bağlanır". Modellərin mənbə kodları, eləcə də digər dillər üçün PyTorch müştərilərindən modelləri işə salmaq üçün kod dərc edilmir;
  • Mobil platformalar üçün əlçatan olan Libtorch, ONNX işləmə müddətindən daha böyükdür, lakin modelin ONNX versiyası hələ mövcud deyil.

Mənbə: opennet.ru

Добавить комментарий