Silero кеп синтез системасынын жаңы релиз

Silero Text-to-Speech нейрон тармагынын кеп синтези тутумунун жаңы коомдук релизи жеткиликтүү. Долбоор биринчи кезекте корпорациялардын коммерциялык чечимдеринен кем калбаган жана кымбат сервердик жабдууларды колдонбостон баарына жеткиликтүү болгон заманбап, жогорку сапаттагы кеп синтези системасын түзүүгө багытталган.

Моделдер GNU AGPL лицензиясы боюнча таратылат, бирок долбоорду иштеп чыгуучу компания моделдерди окутуу механизмин ачыкка чыгарбайт. Иштөө үчүн, сиз ONNX форматын колдогон PyTorch жана алкактарды колдоно аласыз. Силеродогу кеп синтези терең модификацияланган заманбап нейрондук тармак алгоритмдерин жана санарип сигналды иштетүү ыкмаларын колдонууга негизделген.

Кеп синтези үчүн заманбап нейрон тармактарынын чечимдеринин негизги көйгөйү, алар көбүнчө акы төлөнүүчү булут чечимдеринин ичинде гана жеткиликтүү, ал эми коомдук өнүмдөр аппараттык камсыздоого жогорку талаптарга ээ, сапаты төмөн же толук эмес жана колдонууга даяр эмес экендиги белгиленет. буюмдар. Мисалы, жаңы популярдуу учу-кыйырына синтез архитектураларынын бирин, VITSти синтез режиминде жылмакай иштетүү үчүн (башкача айтканда, моделди окутуу үчүн эмес), VRAM 16 гигабайттан ашкан видеокарталар талап кылынат.

Азыркы тенденциядан айырмаланып, Silero чечимдери AVX1 көрсөтмөлөрү бар Intel процессорунун 86 x2 жипинде да ийгиликтүү иштейт. 4 процессордук жиптерде синтез 30 кГц синтез режиминде секундасына 60дан 8 секундага чейин, 24 кГц режиминде - 15-20 секундда, 48 кГц режиминде - болжол менен 10 секундага чейин синтездөөгө мүмкүндүк берет.

Жаңы Silero релизинин негизги өзгөчөлүктөрү:

  • Моделдин көлөмү 2 эсеге, 50 мегабайтка чейин кыскарган;
  • Моделдер тыныгууну билет;
  • Орус тилинде 4 жогорку сапаттагы үн бар (жана чексиз сандагы кокустуктар). Айтылышынын мисалдары;
  • Моделдер 10 эсе тезирээк болуп калды жана, мисалы, 24 кГц режиминде алар 20 процессордун жиптери боюнча секундасына 4 секундага чейин аудиону синтездөөгө мүмкүндүк берет;
  • Бир тил үчүн бардык үн параметрлери бир моделге топтолгон;
  • Моделдер тексттин бүтүндөй абзацтарын киргизүү катары кабыл алат, SSML тэгдери колдоого алынат;
  • Синтез бир эле учурда үч тандоо жыштыгында иштейт - 8, 24 жана 48 килогерц;
  • "Балдардын көйгөйлөрү" чечилди: туруксуздук жана жетишпеген сөздөр;
  • Акценттерди автоматтык түрдө жайгаштырууну жана “е” тамгасын жайгаштырууну көзөмөлдөө үчүн желекчелер кошулду.

Учурда синтездин эң жаңы версиясы үчүн орус тилиндеги 4 үн жалпыга жеткиликтүү, бирок жакын арада кийинки версия төмөнкүдөй өзгөртүүлөр менен жарык көрөт:

  • синтез ылдамдыгы дагы 2-4 эсе жогорулайт;
  • КМШ тилдери үчүн синтез моделдери жаңыланат: калмак, татар, өзбек жана украин;
  • Европа тилдери үчүн моделдер кошулат;
  • Индия тилдери үчүн моделдер кошулат;
  • Англис тили үчүн моделдер кошулат.

Silero синтезине мүнөздүү кээ бир системалык бузулуулар:

  • RHVoice сыяктуу салттуу синтез чечимдеринен айырмаланып, Silero синтезинде SAPI интеграциясы, орнотууга оңой кардарлар же Windows жана Android үчүн интеграциялар жок;
  • Ылдамдык, мындай чечим үчүн болуп көрбөгөндөй жогору болсо да, жогорку сапаттагы алсыз процессорлордо тез синтездөө үчүн жетишсиз болушу мүмкүн;
  • Авто-акцент чечими омографтарды иштетпейт (сепил жана сепил сыяктуу сөздөр) жана дагы эле ката кетирет, бирок бул келечектеги чыгарылыштарда оңдолот;
  • Синтездин учурдагы версиясы AVX2 көрсөтмөлөрү жок процессорлордо иштебейт (же сиз PyTorch жөндөөлөрүн атайын өзгөртүү керек), анткени моделдин ичиндеги модулдардын бири квантталган;
  • Синтездин учурдагы версиясы негизинен бир PyTorch көз карандылыгына ээ; бардык толтуруу моделдин жана JIT пакеттеринин ичинде "катуу жабдылган". Моделдердин баштапкы коддору, ошондой эле башка тилдер үчүн PyTorch кардарларынын моделдерин иштетүү үчүн код жарыяланган эмес;
  • Мобилдик платформалар үчүн жеткиликтүү Libtorch ONNX иштөө убактысына караганда алда канча көлөмдүү, бирок моделдин ONNX версиясы азырынча жеткиликтүү эмес.

Source: opennet.ru

Комментарий кошуу