Новы выпуск сістэмы сінтэзу гаворкі Silero

Даступны новы публічны выпуск нейросетевой сістэмы сінтэзу гаворкі Silero Text-to-Speech. Праект у першую чаргу накіраваны на стварэнне сучаснай высакаякаснай сістэмы сінтэзу гаворкі, якая не саступае камерцыйным рашэнням ад карпарацый і даступнай для ўсіх жадаючых без выкарыстання дарагога сервернага абсталявання.

Мадэлі распаўсюджваюцца пад ліцэнзіяй GNU AGPL, але якая развівае праект кампанія не раскрывае механізм трэніроўкі мадэляў. Для запуску можна выкарыстоўваць PyTorch і фрэймворкі з падтрымкай фармату ONNX. Сінтэз прамовы ў Silero заснаваны на выкарыстанні глыбокага мадыфікаваных сучасных нейросетевых алгарытмаў і метадаў лічбавай апрацоўкі сігналаў.

Адзначаецца, што асноўнай праблемай сучасных нейросетевых рашэнняў для сінтэзу гаворкі з'яўляецца тое, што часцяком яны даступныя толькі ў рамках платных хмарных рашэнняў, а публічныя прадукты маюць высокія патрабаванні да абсталявання, ніжэйшая якасць або не з'яўляюцца скончанымі і гатовымі для выкарыстання прадуктамі. Напрыклад, для беспраблемнага запуску адной з новых папулярных архітэктур end-to-end сінтэзу, VITS, у рэжыме сінтэзу (гэта значыць не для трэніроўкі мадэляў) патрабуюцца відэакарты з больш за 16 гігабайтамі VRAM.

Насуперак які склаўся трэнду рашэння Silero паспяхова запускаюцца нават на 1 струмені x86 працэсара Intel c інструкцыямі AVX2. На 4 патоках працэсара сінтэз дазваляе сінтэзаваць ад 30 да 60 секунд у секунду ў рэжыме сінтэзу 8 kHz, у рэжыме 24 kHz – 15-20 сек., А ў рэжыме 48 kHz – каля 10 сек.

Асноўныя асаблівасці новага выпуску Silero:

  • Памер мадэлі паніжаны ў 2 разы да 50 мегабайт;
  • Мадэлі ўмеюць рабіць паўзы;
  • Даступна 4 высакаякасных галасы на рускай мове (і бясконцую колькасць выпадковых). Прыклады вымаўлення;
  • Мадэлі сталі ў 10 разоў хутчэй і, напрыклад, у рэжыме 24 kHz дазваляюць сінтэзаваць да 20 секунд аўдыё ў секунду на 4 патоках працэсара;
  • Усе варыянты галасоў для адной мовы спакаваны ў адну мадэль;
  • Мадэлі могуць прымаць цэлыя абзацы тэксту на ўваход, падтрымліваюцца SSML-тэгі;
  • Сінтэз працуе адразу ў трох частотах дыскрэтызацыі на выбар - 8, 24 і 48 кілагерц;
  • Вырашаны "дзіцячыя праблемы": нестабільнасць і пропуск слоў;
  • Дададзеныя сцягі для кантролю аўтаматычнай прастаноўкі націскаў і прастаноўкі літары "ё".

Цяпер для самай новай версіі сінтэзу публічна даступныя 4 галасы на рускай мове, але ў найбліжэйшай будучыні будзе апублікавана наступная версія са наступнымі зменамі:

  • Хуткасць сінтэзу вырасце яшчэ ў 2-4 разы;
  • Будуць абноўлены мадэлі сінтэзу для моў СНД: Калмыцкай, Татарскай, Узбекскай і Украінскай;
  • Будуць дададзены мадэлі для еўрапейскіх моў;
  • Будуць дададзены мадэлі для індыйскіх моў;
  • Будуць дададзены мадэлі для англійскай мовы.

Некаторыя з сістэмных прабоем, уласцівых сінтэзу Silero:

  • У адрозненні ад больш традыцыйных рашэнняў для сінтэзу, такіх як RHVoice, у сінтэзу Silero няма інтэграцыі з SAPI, простых да ўстаноўкі кліентаў і інтэграцый для Windows і Android;
  • Хуткасць, хоць і з'яўляецца беспрэцэдэнтна высокай для такога рашэння, можа быць недастатковай для сінтэзу на лета на слабых працэсарах у высокай якасці;
  • Рашэнне для аўтаматычнай расстаноўкі націскаў не апрацоўвае амографы (словы па тыпе замак і замок) і ўсё яшчэ робіць памылкі, але дадзеная недапрацоўка будзе выпраўлена ў будучых рэлізах;
  • Бягучая версія сінтэзу не працуе на працэсарах без інструкцый AVX2 (ці неабходна спецыяльна змяняць налады PyTorch), паколькі адзін з модуляў ўнутры мадэлі квантызаваны;
  • Бягучая версія сінтэзу ў сутнасці мае адзінай залежнасцю PyTorch, усё начынне "зашытая" ўнутр мадэлі і JIT-пакетаў. Зыходнікі мадэляў не публікуюцца, роўна як і код для запуску мадэляў з-пад кліентаў PyTorch для іншых моў;
  • Libtorch, даступны для мабільных платформаў, значна больш грувасткі, чым ONNX runtime, але ONNX-версія мадэлі пакуль не прадастаўляецца.

Крыніца: opennet.ru

Дадаць каментар