Даступны новы публічны выпуск нейросетевой сістэмы сінтэзу гаворкі Silero Text-to-Speech. Праект у першую чаргу накіраваны на стварэнне сучаснай высакаякаснай сістэмы сінтэзу гаворкі, якая не саступае камерцыйным рашэнням ад карпарацый і даступнай для ўсіх жадаючых без выкарыстання дарагога сервернага абсталявання.
Мадэлі распаўсюджваюцца пад ліцэнзіяй GNU AGPL, але якая развівае праект кампанія не раскрывае механізм трэніроўкі мадэляў. Для запуску можна выкарыстоўваць PyTorch і фрэймворкі з падтрымкай фармату ONNX. Сінтэз прамовы ў Silero заснаваны на выкарыстанні глыбокага мадыфікаваных сучасных нейросетевых алгарытмаў і метадаў лічбавай апрацоўкі сігналаў.
Адзначаецца, што асноўнай праблемай сучасных нейросетевых рашэнняў для сінтэзу гаворкі з'яўляецца тое, што часцяком яны даступныя толькі ў рамках платных хмарных рашэнняў, а публічныя прадукты маюць высокія патрабаванні да абсталявання, ніжэйшая якасць або не з'яўляюцца скончанымі і гатовымі для выкарыстання прадуктамі. Напрыклад, для беспраблемнага запуску адной з новых папулярных архітэктур end-to-end сінтэзу, VITS, у рэжыме сінтэзу (гэта значыць не для трэніроўкі мадэляў) патрабуюцца відэакарты з больш за 16 гігабайтамі VRAM.
Насуперак які склаўся трэнду рашэння Silero паспяхова запускаюцца нават на 1 струмені x86 працэсара Intel c інструкцыямі AVX2. На 4 патоках працэсара сінтэз дазваляе сінтэзаваць ад 30 да 60 секунд у секунду ў рэжыме сінтэзу 8 kHz, у рэжыме 24 kHz – 15-20 сек., А ў рэжыме 48 kHz – каля 10 сек.
Асноўныя асаблівасці новага выпуску Silero:
- Памер мадэлі паніжаны ў 2 разы да 50 мегабайт;
- Мадэлі ўмеюць рабіць паўзы;
- Даступна 4 высакаякасных галасы на рускай мове (і бясконцую колькасць выпадковых). Прыклады вымаўлення;
- Мадэлі сталі ў 10 разоў хутчэй і, напрыклад, у рэжыме 24 kHz дазваляюць сінтэзаваць да 20 секунд аўдыё ў секунду на 4 патоках працэсара;
- Усе варыянты галасоў для адной мовы спакаваны ў адну мадэль;
- Мадэлі могуць прымаць цэлыя абзацы тэксту на ўваход, падтрымліваюцца SSML-тэгі;
- Сінтэз працуе адразу ў трох частотах дыскрэтызацыі на выбар - 8, 24 і 48 кілагерц;
- Вырашаны "дзіцячыя праблемы": нестабільнасць і пропуск слоў;
- Дададзеныя сцягі для кантролю аўтаматычнай прастаноўкі націскаў і прастаноўкі літары "ё".
Цяпер для самай новай версіі сінтэзу публічна даступныя 4 галасы на рускай мове, але ў найбліжэйшай будучыні будзе апублікавана наступная версія са наступнымі зменамі:
- Хуткасць сінтэзу вырасце яшчэ ў 2-4 разы;
- Будуць абноўлены мадэлі сінтэзу для моў СНД: Калмыцкай, Татарскай, Узбекскай і Украінскай;
- Будуць дададзены мадэлі для еўрапейскіх моў;
- Будуць дададзены мадэлі для індыйскіх моў;
- Будуць дададзены мадэлі для англійскай мовы.
Некаторыя з сістэмных прабоем, уласцівых сінтэзу Silero:
- У адрозненні ад больш традыцыйных рашэнняў для сінтэзу, такіх як RHVoice, у сінтэзу Silero няма інтэграцыі з SAPI, простых да ўстаноўкі кліентаў і інтэграцый для Windows і Android;
- Хуткасць, хоць і з'яўляецца беспрэцэдэнтна высокай для такога рашэння, можа быць недастатковай для сінтэзу на лета на слабых працэсарах у высокай якасці;
- Рашэнне для аўтаматычнай расстаноўкі націскаў не апрацоўвае амографы (словы па тыпе замак і замок) і ўсё яшчэ робіць памылкі, але дадзеная недапрацоўка будзе выпраўлена ў будучых рэлізах;
- Бягучая версія сінтэзу не працуе на працэсарах без інструкцый AVX2 (ці неабходна спецыяльна змяняць налады PyTorch), паколькі адзін з модуляў ўнутры мадэлі квантызаваны;
- Бягучая версія сінтэзу ў сутнасці мае адзінай залежнасцю PyTorch, усё начынне "зашытая" ўнутр мадэлі і JIT-пакетаў. Зыходнікі мадэляў не публікуюцца, роўна як і код для запуску мадэляў з-пад кліентаў PyTorch для іншых моў;
- Libtorch, даступны для мабільных платформаў, значна больш грувасткі, чым ONNX runtime, але ONNX-версія мадэлі пакуль не прадастаўляецца.
Крыніца: opennet.ru