Silero сөйлеу синтезі жүйесінің жаңа шығарылымы

Silero Text-to-Speech нейрондық желісінің сөйлеу синтезі жүйесінің жаңа жалпыға қолжетімді шығарылымы қол жетімді. Жоба бірінші кезекте корпорациялардың коммерциялық шешімдерінен кем түспейтін және қымбат серверлік жабдықты пайдаланбай-ақ барлығына қолжетімді заманауи, жоғары сапалы сөйлеу синтезі жүйесін құруға бағытталған.

Модельдер GNU AGPL лицензиясы бойынша таратылады, бірақ жобаны әзірлеуші ​​компания модельдерді оқыту механизмін ашпайды. Іске қосу үшін PyTorch және ONNX пішімін қолдайтын жақтауларды пайдалануға болады. Silero-да сөйлеу синтезі терең өзгертілген заманауи нейрондық желі алгоритмдерін және цифрлық сигналдарды өңдеу әдістерін қолдануға негізделген.

Сөйлеу синтезіне арналған қазіргі заманғы нейрондық желілік шешімдердің негізгі проблемасы олардың көбіне ақылы бұлттық шешімдердің ішінде ғана қолжетімді болуы, ал жалпыға қолжетімді өнімдердің аппараттық құралдарға жоғары талаптары, сапасы төмен немесе толық емес және пайдалануға дайын емес екендігі атап өтілген. өнімдер. Мысалы, синтез режимінде (яғни үлгіні оқыту үшін емес) жаңа танымал VITS синтез архитектураларының бірін біркелкі іске қосу үшін VRAM көлемі 16 гигабайттан асатын видеокарталар қажет.

Ағымдағы трендке қарамастан, Silero шешімдері AVX1 нұсқаулары бар Intel процессорының 86 x2 ағынында да сәтті жұмыс істейді. 4 процессор ағынында синтез 30 кГц синтез режимінде секундына 60-дан 8 секундқа дейін, 24 кГц режимінде - 15-20 секунд, ал 48 кГц режимінде - шамамен 10 секунд синтездеуге мүмкіндік береді.

Жаңа Silero шығарылымының негізгі мүмкіндіктері:

  • Модельдің көлемі 2 есеге 50 мегабайтқа дейін қысқартылды;
  • Модельдер кідіртуді біледі;
  • Орыс тілінде 4 жоғары сапалы дауыс бар (және шексіз саны кездейсоқ). Айтылым мысалдары;
  • Модельдер 10 есе жылдамырақ болды және, мысалы, 24 кГц режимінде олар 20 процессор ағынында секундына 4 секундқа дейін дыбысты синтездеуге мүмкіндік береді;
  • Бір тілге арналған барлық дауыс опциялары бір үлгіге жинақталған;
  • Модельдер мәтіннің барлық абзацтарын енгізу ретінде қабылдай алады, SSML тегтеріне қолдау көрсетіледі;
  • Синтез бірден таңдау үшін үш іріктеу жиілігінде жұмыс істейді - 8, 24 және 48 килогерц;
  • «Балалардың проблемалары» шешілді: тұрақсыздық және жетіспейтін сөздер;
  • Екпіндерді автоматты түрде орналастыруды және «е» әрпін орналастыруды басқару үшін жалаушалар қосылды.

Қазіргі уақытта синтездің ең жаңа нұсқасы үшін орыс тіліндегі 4 дауыс жалпыға қолжетімді, бірақ жақын арада келесі нұсқасы келесі өзгерістермен жарияланады:

  • Синтез жылдамдығы тағы 2-4 есе артады;
  • ТМД тілдері үшін синтез үлгілері жаңартылады: қалмақ, татар, өзбек және украин;
  • Еуропалық тілдерге арналған үлгілер қосылады;
  • Үнді тілдеріне арналған үлгілер қосылады;
  • Ағылшын тіліне арналған үлгілер қосылады.

Silero синтезіне тән кейбір жүйе бұзылыстары:

  • RHVoice сияқты дәстүрлі синтез шешімдерінен айырмашылығы, Silero синтезінде SAPI интеграциясы, орнатуға оңай клиенттер немесе Windows және Android үшін интеграциялар жоқ;
  • Жылдамдық, мұндай шешім үшін бұрын-соңды болмаған жоғары болса да, жоғары сапада әлсіз процессорларда жедел синтез үшін жеткіліксіз болуы мүмкін;
  • Автоматты екпін шешімі омографтарды (құлып пен құлып сияқты сөздер) өңдемейді және әлі де қателіктер жібереді, бірақ бұл болашақ шығарылымдарда түзетіледі;
  • Синтездің ағымдағы нұсқасы AVX2 нұсқауларынсыз процессорларда жұмыс істемейді (немесе PyTorch параметрлерін арнайы өзгерту керек), өйткені модель ішіндегі модульдердің бірі квантталған;
  • Синтездің қазіргі нұсқасында бір ғана PyTorch тәуелділігі бар; барлық толтыру модель мен JIT пакеттерінің ішінде «қатты сыммен» қосылған. Үлгілердің бастапқы кодтары, сондай-ақ басқа тілдерге арналған PyTorch клиенттерінен үлгілерді іске қосу коды жарияланбаған;
  • Мобильді платформалар үшін қол жетімді Libtorch ONNX жұмыс уақытынан әлдеқайда үлкен, бірақ модельдің ONNX нұсқасы әлі қол жетімді емес.

Ақпарат көзі: opennet.ru

пікір қалдыру