Нашри нави системаи синтези нутқи Silero

Нашри нави оммавии системаи синтези нутқи шабакаи нейронии Silero Text-to-Speech дастрас аст. Лоиҳа пеш аз ҳама ба эҷоди як системаи муосир ва баландсифати синтези нутқ нигаронида шудааст, ки аз қарорҳои тиҷоратии корпоратсияҳо кам нест ва барои ҳама бе истифодаи таҷҳизоти гаронбаҳои сервер дастрас аст.

Моделҳо тибқи иҷозатномаи GNU AGPL паҳн карда мешаванд, аммо ширкати таҳиякунандаи лоиҳа механизми омӯзиши моделҳоро ифшо намекунад. Барои иҷро кардан, шумо метавонед PyTorch ва чаҳорчӯбаҳоеро, ки формати ONNX-ро дастгирӣ мекунанд, истифода баред. Синтези нутқ дар Silero ба истифодаи алгоритмҳои амиқи муосири шабакаи нейронӣ ва усулҳои коркарди сигналҳои рақамӣ асос ёфтааст.

Қайд карда мешавад, ки мушкилоти асосии ҳалли муосири шабакаҳои нейронӣ барои синтези нутқ дар он аст, ки онҳо аксар вақт танҳо дар доираи қарорҳои абрии пулакӣ дастрасанд ва маҳсулоти ҷамъиятӣ ба сахтафзорҳо талаботи баланд доранд, сифати паст доранд ё пурра ва барои истифода омода нестанд. махсулот. Масалан, барои ба кор андохтани яке аз меъмории нави маъмули синтези VITS, дар реҷаи синтез (яъне на барои омӯзиши модел), кортҳои видеоӣ бо зиёда аз 16 гигабайт VRAM лозиманд.

Бар хилофи тамоюли ҷорӣ, қарорҳои Silero ҳатто дар риштаи 1 x86 протсессори Intel бо дастурҳои AVX2 бомуваффақият кор мекунанд. Дар 4 риштаи протсессор синтез имкон медиҳад, ки аз 30 то 60 сония дар як сония дар реҷаи синтези 8 кГц, дар реҷаи 24 кГц - 15-20 сония ва дар режими 48 кГц - тақрибан 10 сония синтез карда шавад.

Хусусиятҳои асосии версияи нави Silero:

  • Андозаи модел 2 маротиба кам карда, то 50 мегабайт;
  • Моделҳо медонанд, ки чӣ тавр таваққуф кунанд;
  • 4 овози баландсифат бо забони русӣ дастрас аст (ва шумораи беохири овозҳои тасодуфӣ). Намунаҳои талаффуз;
  • Моделҳо 10 маротиба тезтар шуданд ва масалан, дар реҷаи 24 кГц онҳо ба шумо имкон медиҳанд то 20 сония аудио дар як сония дар 4 риштаи протсессор синтез карда шаванд;
  • Ҳамаи имконоти овозӣ барои як забон дар як модел баста шудаанд;
  • Моделҳо метавонанд тамоми параграфҳои матнро ҳамчун вуруд қабул кунанд, барчаспҳои SSML дастгирӣ карда мешаванд;
  • Синтез якбора дар се басомади интихоб кор мекунад - 8, 24 ва 48 килогерц;
  • "Мушкилоти кӯдакон" ҳал карда шуданд: ноустуворӣ ва калимаҳои гумшуда;
  • Парчамҳои иловашуда барои назорати ҷойгиркунии автоматии аксентҳо ва ҷойгиркунии ҳарфи "е".

Дар айни замон, барои версияи навтарини синтез 4 овоз бо забони русӣ дастрас аст, аммо дар ояндаи наздик версияи навбатӣ бо тағйироти зерин нашр хоҳад шуд:

  • Суръати синтез боз 2—4 баробар меафзояд;
  • Моделҳои синтез барои забонҳои ИДМ нав карда мешаванд: калмиқӣ, тоторӣ, узбакӣ ва украинӣ;
  • Моделҳо барои забонҳои аврупоӣ илова карда мешаванд;
  • Моделҳо барои забонҳои ҳиндӣ илова карда мешаванд;
  • Моделҳо барои забони англисӣ илова карда мешаванд.

Баъзе вайроншавии система, ки ба синтези Silero хосанд:

  • Баръакси ҳалли анъанавии синтез, аз қабили RHVoice, синтези Silero ҳамгироии SAPI, муштариёни насби осон ё ҳамгироӣ барои Windows ва Android надорад;
  • Суръат, гарчанде ки барои чунин ҳалли бесобиқа баланд аст, метавонад барои синтези дар парвоз дар протсессори заиф бо сифати баланд кофӣ набошад;
  • Ҳалли худкор аксент ба гомографҳо (калимаҳо ба монанди қалъа ва қалъа) кор намекунад ва то ҳол хато мекунад, аммо ин дар нашрияҳои оянда ислоҳ карда мешавад;
  • Версияи кунунии синтез дар протсессорҳо бе дастурҳои AVX2 кор намекунад (ё шумо бояд ба таври махсус танзимоти PyTorch тағир диҳед), зеро яке аз модулҳои дохили модел квантизатсия карда шудааст;
  • Варианти кунунии синтез аслан вобастагии ягонаи PyTorch дорад; ҳама пуркунӣ дар дохили модел ва бастаҳои JIT "сахт пайваст карда шудаанд". Рамзҳои ибтидоии моделҳо, инчунин рамзи иҷро кардани моделҳо аз муштариёни PyTorch барои забонҳои дигар нашр нашудаанд;
  • Libtorch, ки барои платформаҳои мобилӣ дастрас аст, нисбат ба вақти кории ONNX хеле калонтар аст, аммо версияи ONNX модел ҳоло дастрас нест.

Манбаъ: opennet.ru

Илова Эзоҳ