Muundo wa ChatTTS AI wa usanisi wa usemi umechapishwa

Mradi wa ChatTTS umechapisha modeli na zana zinazohusiana za kujifunza kwa mashine kwa usanisi wa usemi wa hisia. Mradi wa ChatTTS umeboreshwa mahususi kwa matumizi katika mifumo ya mazungumzo, kama vile visaidizi shirikishi, na unalenga kuzaliana sifa za mawasiliano asilia ya kihisia. Mwingiliano na spika nyingi na kujenga mazungumzo maingiliano ni mkono. Vipengele vya prosodic kama vile kicheko, kusitisha na kukatiza hufuatiliwa kwa usahihi na kutolewa tena wakati wa usanisi.

Wakati wa kufundisha mfano huo, karibu masaa elfu 40 ya rekodi za hotuba zilitumika (katika toleo lisilo la umma la mfano - masaa elfu 100). Kulingana na watengenezaji, uwezo wa kutengeneza kiimbo wa kiimbo ni bora kuliko mifano yote ya awali ya usanisi wa usemi wazi. Ili kudhibiti hisia wakati wa usanisi, ubadilishaji wa ishara pekee ndio unaoungwa mkono kwa sasa, kwa mfano, "[cheka]" kwa kicheko. Ili kutengeneza rekodi ya sekunde 30, GPU yenye kumbukumbu ya GB 4 inahitajika. Kwenye NVIDIA GeForce RTX 4090D GPU, kiwango cha kizazi ni takriban tokeni 7 za semantic kwa sekunde. Usanifu wa sauti za kike na kiume kwa Kiingereza na Kichina zinaungwa mkono (kwa lugha ya Kirusi tunaweza kupendekeza mfumo wa TTS na mfano wa XTTS-v2, ambao pamoja na usanisi wa uundaji wa sauti kutoka kwa rekodi fupi ya hotuba, pamoja na usanisi katika lugha nyingine. )

Muundo wa ChatTTS umechapishwa chini ya leseni ya CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0), ambayo inaruhusu ugawaji upya bila malipo na maelezo, lakini inakataza uundaji wa kazi zinazotokana na matumizi katika miradi ya kibiashara. Kwa kuongeza, ili kulinda dhidi ya matumizi ya mfano kufanya vitendo vya ulaghai na uhalifu, wakati wa kufundisha mfano huo, uingizwaji wa kelele ya juu-frequency ilitumiwa na kiwango cha juu cha ukandamizaji wa sauti kilitumiwa kwa kutumia muundo wa MP3.

Chanzo: opennet.ru

Kuongeza maoni