Новый выпуск систСмы синтСза Ρ€Π΅Ρ‡ΠΈ Silero

ДоступСн Π½ΠΎΠ²Ρ‹ΠΉ ΠΏΡƒΠ±Π»ΠΈΡ‡Π½Ρ‹ΠΉ выпуск нСйросСтСвой систСмы синтСза Ρ€Π΅Ρ‡ΠΈ Silero Text-to-Speech. ΠŸΡ€ΠΎΠ΅ΠΊΡ‚ Π² ΠΏΠ΅Ρ€Π²ΡƒΡŽ ΠΎΡ‡Π΅Ρ€Π΅Π΄ΡŒ Π½Π°Ρ†Π΅Π»Π΅Π½ Π½Π° созданиС соврСмСнной высококачСствСнной систСмы синтСза Ρ€Π΅Ρ‡ΠΈ, Π½Π΅ ΡƒΡΡ‚ΡƒΠΏΠ°ΡŽΡ‰Π΅ΠΉ коммСрчСским Ρ€Π΅ΡˆΠ΅Π½ΠΈΡΠΌ ΠΎΡ‚ ΠΊΠΎΡ€ΠΏΠΎΡ€Π°Ρ†ΠΈΠΉ ΠΈ доступной для всСх ΠΆΠ΅Π»Π°ΡŽΡ‰ΠΈΡ… Π±Π΅Π· использования Π΄ΠΎΡ€ΠΎΠ³ΠΎΠ³ΠΎ сСрвСрного оборудования.

МодСли Ρ€Π°ΡΠΏΡ€ΠΎΡΡ‚Ρ€Π°Π½ΡΡŽΡ‚ΡΡ ΠΏΠΎΠ΄ Π»ΠΈΡ†Π΅Π½Π·ΠΈΠ΅ΠΉ GNU AGPL, Π½ΠΎ Ρ€Π°Π·Π²ΠΈΠ²Π°ΡŽΡ‰Π°Ρ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ компания Π½Π΅ раскрываСт ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. Для запуска ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ PyTorch ΠΈ Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠΈ с ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΎΠΉ Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π° ONNX. Π‘ΠΈΠ½Ρ‚Π΅Π· Ρ€Π΅Ρ‡ΠΈ Π² Silero основан Π½Π° использовании Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ³ΠΎ ΠΌΠΎΠ΄ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… соврСмСнных нСйросСтСвых Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Ρ†ΠΈΡ„Ρ€ΠΎΠ²ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ сигналов.

ΠžΡ‚ΠΌΠ΅Ρ‡Π°Π΅Ρ‚ΡΡ, Ρ‡Ρ‚ΠΎ основной ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠΎΠΉ соврСмСнных нСйросСтСвых Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ для синтСза Ρ€Π΅Ρ‡ΠΈ являСтся Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ Π·Π°Ρ‡Π°ΡΡ‚ΡƒΡŽ ΠΎΠ½ΠΈ доступны Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π² Ρ€Π°ΠΌΠΊΠ°Ρ… ΠΏΠ»Π°Ρ‚Π½Ρ‹Ρ… ΠΎΠ±Π»Π°Ρ‡Π½Ρ‹Ρ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ, Π° ΠΏΡƒΠ±Π»ΠΈΡ‡Π½Ρ‹Π΅ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Ρ‹ ΠΈΠΌΠ΅ΡŽΡ‚ высокиС трСбования ΠΊ ΠΎΠ±ΠΎΡ€ΡƒΠ΄ΠΎΠ²Π°Π½ΠΈΡŽ, Π±ΠΎΠ»Π΅Π΅ Π½ΠΈΠ·ΠΊΠΎΠ΅ качСство ΠΈΠ»ΠΈ Π½Π΅ ΡΠ²Π»ΡΡŽΡ‚ΡΡ Π·Π°ΠΊΠΎΠ½Ρ‡Π΅Π½Π½Ρ‹ΠΌΠΈ ΠΈ Π³ΠΎΡ‚ΠΎΠ²Ρ‹ΠΌΠΈ для использования ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Π°ΠΌΠΈ. НапримСр, для бСспроблСмного запуска ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· Π½ΠΎΠ²Ρ‹Ρ… популярных Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ end-to-end синтСза, VITS, Π² Ρ€Π΅ΠΆΠΈΠΌΠ΅ синтСза (Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ Π½Π΅ для Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ) Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‚ΡΡ Π²ΠΈΠ΄Π΅ΠΎΠΊΠ°Ρ€Ρ‚Ρ‹ с Π±ΠΎΠ»Π΅Π΅ Ρ‡Π΅ΠΌ 16 Π³ΠΈΠ³Π°Π±Π°ΠΉΡ‚Π°ΠΌΠΈ VRAM.

Π’ΠΎΠΏΡ€Π΅ΠΊΠΈ ΡΠ»ΠΎΠΆΠΈΠ²ΡˆΠ΅ΠΌΡƒΡΡ Ρ‚Ρ€Π΅Π½Π΄Ρƒ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Silero ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎ Π·Π°ΠΏΡƒΡΠΊΠ°ΡŽΡ‚ΡΡ Π΄Π°ΠΆΠ΅ Π½Π° 1 ΠΏΠΎΡ‚ΠΎΠΊΠ΅ x86 процСссора Intel c инструкциями AVX2. На 4 ΠΏΠΎΡ‚ΠΎΠΊΠ°Ρ… процСссора синтСз позволяСт ΡΠΈΠ½Ρ‚Π΅Π·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΎΡ‚ 30 Π΄ΠΎ 60 сСкунд Π² сСкунду Π² Ρ€Π΅ΠΆΠΈΠΌΠ΅ синтСза 8 kHz, Π² Ρ€Π΅ΠΆΠΈΠΌΠ΅ 24 kHz — 15-20 сСк., Π° Π² Ρ€Π΅ΠΆΠΈΠΌΠ΅ 48 kHz — ΠΎΠΊΠΎΠ»ΠΎ 10 сСк.

ΠžΡΠ½ΠΎΠ²Π½Ρ‹Π΅ особСнности Π½ΠΎΠ²ΠΎΠ³ΠΎ выпуска Silero:

  • Π Π°Π·ΠΌΠ΅Ρ€ ΠΌΠΎΠ΄Π΅Π»ΠΈ сниТСн Π² 2 Ρ€Π°Π·Π° Π΄ΠΎ 50 ΠΌΠ΅Π³Π°Π±Π°ΠΉΡ‚;
  • МодСли ΡƒΠΌΠ΅ΡŽΡ‚ Π΄Π΅Π»Π°Ρ‚ΡŒ ΠΏΠ°ΡƒΠ·Ρ‹;
  • Доступно 4 высококачСствСнных голоса Π½Π° русском языкС (ΠΈ бСсконСчноС число случайных). ΠŸΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ ΠΏΡ€ΠΎΠΈΠ·Π½ΠΎΡˆΠ΅Π½ΠΈΡ;
  • МодСли стали Π² 10 Ρ€Π°Π· быстрСС ΠΈ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π² Ρ€Π΅ΠΆΠΈΠΌΠ΅ 24 kHz ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‚ ΡΠΈΠ½Ρ‚Π΅Π·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π΄ΠΎ 20 сСкунд Π°ΡƒΠ΄ΠΈΠΎ Π² сСкунду Π½Π° 4 ΠΏΠΎΡ‚ΠΎΠΊΠ°Ρ… процСссора;
  • ВсС Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Ρ‹ голосов для ΠΎΠ΄Π½ΠΎΠ³ΠΎ языка ΡƒΠΏΠ°ΠΊΠΎΠ²Π°Π½Ρ‹ Π² ΠΎΠ΄Π½Ρƒ модСль;
  • МодСли ΠΌΠΎΠ³ΡƒΡ‚ ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Ρ‚ΡŒ Ρ†Π΅Π»Ρ‹Π΅ Π°Π±Π·Π°Ρ†Ρ‹ тСкста Π½Π° Π²Ρ…ΠΎΠ΄, ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°ΡŽΡ‚ΡΡ SSML-Ρ‚Π΅Π³ΠΈ;
  • Π‘ΠΈΠ½Ρ‚Π΅Π· Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ сразу Π² Ρ‚Ρ€Ρ‘Ρ… частотах дискрСтизации Π½Π° Π²Ρ‹Π±ΠΎΡ€ — 8, 24 ΠΈ 48 ΠΊΠΈΠ»ΠΎΠ³Π΅Ρ€Ρ†;
  • Π Π΅ΡˆΠ΅Π½Ρ‹ «Π΄Π΅Ρ‚скиС ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹»: Π½Π΅ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΈ пропуск слов;
  • Π”ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ Ρ„Π»Π°Π³ΠΈ для контроля автоматичСской простановки ΡƒΠ΄Π°Ρ€Π΅Π½ΠΈΠΉ ΠΈ простановки Π±ΡƒΠΊΠ²Ρ‹ «Ρ‘».

БСйчас для самой Π½ΠΎΠ²ΠΎΠΉ вСрсии синтСза ΠΏΡƒΠ±Π»ΠΈΡ‡Π½ΠΎ доступны 4 голоса Π½Π° русском языкС, Π½ΠΎ Π² блиТайшСм Π±ΡƒΠ΄ΡƒΡ‰Π΅ΠΌ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Π° ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π°Ρ вСрсия со ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌΠΈ измСнСниями:

  • Π‘ΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ синтСза вырастСт Π΅Ρ‰Π΅ Π² 2-4 Ρ€Π°Π·Π°;
  • Π‘ΡƒΠ΄ΡƒΡ‚ ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ синтСза для языков БНГ: ΠšΠ°Π»ΠΌΡ‹Ρ†ΠΊΠΎΠ³ΠΎ, Ватарского, УзбСкского ΠΈ Украинского;
  • Π‘ΡƒΠ΄ΡƒΡ‚ Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ для СвропСйских языков;
  • Π‘ΡƒΠ΄ΡƒΡ‚ Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ для индийских языков;
  • Π‘ΡƒΠ΄ΡƒΡ‚ Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ для английского языка.

НСкоторыС ΠΈΠ· систСмных ΠΏΡ€ΠΎΠ±ΠΎΠ΅ΠΌ, присущих синтСзу Silero:

  • Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠΈ ΠΎΡ‚ Π±ΠΎΠ»Π΅Π΅ Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½Ρ‹Ρ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ для синтСза, Ρ‚Π°ΠΊΠΈΡ… ΠΊΠ°ΠΊ RHVoice, Ρƒ синтСза Silero Π½Π΅Ρ‚ ΠΈΠ½Ρ‚Π΅Π³Ρ€Π°Ρ†ΠΈΠΈ с SAPI, простых ΠΊ установкС ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΈ ΠΈΠ½Ρ‚Π΅Π³Ρ€Π°Ρ†ΠΈΠΉ для Windows ΠΈ Android;
  • Π‘ΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ, хотя ΠΈ являСтся бСспрСцСдСнтно высокой для Ρ‚Π°ΠΊΠΎΠ³ΠΎ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ, ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ нСдостаточной для синтСза Π½Π° Π»Π΅Ρ‚Ρƒ Π½Π° слабых процСссорах Π² высоком качСствС;
  • РСшСниС для автоматичСской расстановки ΡƒΠ΄Π°Ρ€Π΅Π½ΠΈΠΉ Π½Π΅ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅Ρ‚ ΠΎΠΌΠΎΠ³Ρ€Π°Ρ„Ρ‹ (слова ΠΏΠΎ Ρ‚ΠΈΠΏΡƒ зАмок ΠΈ замОк) ΠΈ всС Π΅Ρ‰Ρ‘ Π΄Π΅Π»Π°Π΅Ρ‚ ошибки, Π½ΠΎ данная Π½Π΅Π΄ΠΎΡ€Π°Π±ΠΎΡ‚ΠΊΠ° Π±ΡƒΠ΄Π΅Ρ‚ исправлСна Π² Π±ΡƒΠ΄ΡƒΡ‰ΠΈΡ… Ρ€Π΅Π»ΠΈΠ·Π°Ρ…;
  • ВСкущая вСрсия синтСза Π½Π΅ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π½Π° процСссорах Π±Π΅Π· инструкций AVX2 (ΠΈΠ»ΠΈ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ ΠΈΠ·ΠΌΠ΅Π½ΡΡ‚ΡŒ настройки PyTorch), ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΎΠ΄ΠΈΠ½ ΠΈΠ· ΠΌΠΎΠ΄ΡƒΠ»Π΅ΠΉ Π²Π½ΡƒΡ‚Ρ€ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΊΠ²Π°Π½Ρ‚ΠΈΠ·ΠΎΠ²Π°Π½;
  • ВСкущая вСрсия синтСза ΠΏΠΎ сути ΠΈΠΌΠ΅Π΅Ρ‚ СдинствСнной Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒΡŽ PyTorch, вся Π½Π°Ρ‡ΠΈΠ½ΠΊΠ° «Π·Π°ΡˆΠΈΡ‚Π°» Π²Π½ΡƒΡ‚Ρ€ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ JIT-ΠΏΠ°ΠΊΠ΅Ρ‚ΠΎΠ². Π˜ΡΡ…ΠΎΠ΄Π½ΠΈΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π½Π΅ ΠΏΡƒΠ±Π»ΠΈΠΊΡƒΡŽΡ‚ΡΡ, Ρ€Π°Π²Π½ΠΎ ΠΊΠ°ΠΊ ΠΈ ΠΊΠΎΠ΄ для запуска ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈΠ· ΠΏΠΎΠ΄ ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² PyTorch для Π΄Ρ€ΡƒΠ³ΠΈΡ… языков;
  • Libtorch, доступный для ΠΌΠΎΠ±ΠΈΠ»ΡŒΠ½Ρ‹Ρ… ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌ, Π³ΠΎΡ€Π°Π·Π΄ΠΎ Π±ΠΎΠ»Π΅Π΅ Π³Ρ€ΠΎΠΌΠΎΠ·Π΄ΠΊΠΈΠΉ, Ρ‡Π΅ΠΌ ONNX runtime, Π½ΠΎ ONNX-вСрсия ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎΠΊΠ° Π½Π΅ прСдоставляСтся.

Π˜ΡΡ‚ΠΎΡ‡Π½ΠΈΠΊ: opennet.ru