Zyphra, Apache 2.0 lisenziyası altında Zonos nitq sintezi AI modelinin ilk beta buraxılışını buraxdı. Modellə birlikdə təklif olunan alətlər dəsti modelə nitqi istədiyiniz səsdə sintez etməyə imkan verən səs klonlama funksiyasını dəstəkləyir, bunun üçün natiqin nitqinin 30 saniyəlik istinad qeydini təmin etmək kifayətdir. İngilis, Yapon, Çin, Fransız və Alman dillərində sintez dəstəklənir.
Model 1.6 milyard parametri əhatə edir və 200 min saatlıq səs yazısı üzərində təlim keçib. Monoton (audiokitablarda olduğu kimi) və emosional nitqin (canlı söhbətdə olduğu kimi) sintezi, həmçinin verilmiş prefiksə əsaslanan sintez (nitqin başlanğıcı olan audio yazı təqdim olunur, bunun əsasında model göstərilən mətnin davamını sintez edir, nitqin orijinal xüsusiyyətlərini əks etdirir, məsələn, nitqlə danışmağa davam edir).
Çıxış 44 kHz seçmə tezliyi ilə səs yaradır. Çox natiqli çıxışları simulyasiya etmək və ya interaktiv dialoqlar qurmaq üçün sintez edilmiş əlavələrin daxil edilməsi, həmçinin nitq sürətinə, yüksəkliyə və sevinc, qorxu, kədər və qəzəb kimi emosiyaların ifadəsinə nəzarət etmək üçün etiketlər əlavə etmək üçün dəstək verilir.
Tərtibatçıların fikrincə, yaradılan nitqin keyfiyyəti bütün açıq və kommersiya sintez sistemlərinə bərabərdir və ya ondan üstündür (testlər ElevenLabs, Cartesia və FishSpeech ilə müqayisəni təmin edir). Mənfi cəhətlər arasında, yaranan səs materialının əvvəlində və ya sonunda öskürək, tənəffüs səsləri və ya cırıltı kimi səs artefaktlarının daha yüksək konsentrasiyası qeyd olunur.
- Zonalar:
- ElevenLabs:
- Karteziya:
- Fish Speech v1.5:
Modeli sisteminizdə istifadə etmək üçün Docker sistemi üçün Gradio platformasına əsaslanan sintezin idarə edilməsi üçün veb interfeysi ehtiva edən istifadəyə hazır şəkil hazırlanmışdır. Başlamaq üçün sadəcə olaraq “git clone https://github.com/Zyphra/Zonos.git; cd Zonos; docker compose up" yazın və brauzerdə "http://localhost:7860" səhifəsini açın. Əməliyyat üçün ən azı 3000 GB video yaddaşa malik 6 seriyalı NVIDIA GPU-nun olması tövsiyə olunur. RTX 4090 GPU real vaxt sintezi üçün lazım olan ikiqat performansı təmin edir.

Mənbə: opennet.ru
