Projekt ChatTTS zveřejnil model a související sadu nástrojů strojového učení pro emoční syntézu řeči. Projekt ChatTTS je speciálně optimalizován pro použití v konverzačních systémech, jako jsou interaktivní asistenti, a jeho cílem je reprodukovat vlastnosti přirozené emoční komunikace. Je podporována interakce s více mluvčími a vytváření interaktivního dialogu. Prozodické prvky jako smích, pauzy a citoslovce jsou během syntézy správně sledovány a reprodukovány.
Při výcviku modelu bylo použito asi 40 tisíc hodin nahrávek řeči (v neveřejné verzi modelu - 100 tisíc hodin). Podle vývojářů jsou možnosti generování intonace modelu lepší než všechny dříve dostupné modely otevřené syntézy řeči. Pro ovládání emocí během syntézy je v současné době podporována pouze substituce tokenů, například „[smích]“ pro smích. Pro vygenerování 30sekundového záznamu je potřeba GPU se 4 GB paměti. Na GPU NVIDIA GeForce RTX 4090D je rychlost generování přibližně 7 sémantických tokenů za sekundu. Je podporována syntéza ženských a mužských hlasů v angličtině a čínštině (pro ruský jazyk můžeme doporučit framework TTS a model XTTS-v2, které kromě syntézy podporují klonování hlasu z krátkého záznamu řeči, včetně syntézy v jiném jazyce ).
Model ChatTTS je publikován pod licencí CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0), která umožňuje bezplatné redistribuci s uvedením zdroje, ale zakazuje vytváření odvozených děl a použití v komerčních projektech. Kromě toho byla pro ochranu před zneužitím modelu k páchání podvodných a kriminálních činů při výcviku modelu použita substituce vysokofrekvenčního šumu a byla použita maximální úroveň komprese zvuku pomocí formátu MP3.
Zdroj: opennet.ru
