Nije release fan it Silero-spraaksynthesesysteem

In nije iepenbiere release fan it Silero Text-to-Speech neural netwurk spraaksyntezesysteem is beskikber. It projekt is yn it foarste plak rjochte op it meitsjen fan in modern, heechweardich spraaksyntezesysteem dat net ynferior is foar kommersjele oplossingen fan korporaasjes en foar elkenien tagonklik is sûnder it brûken fan djoere serverapparatuer.

De modellen wurde ferspraat ûnder de GNU AGPL-lisinsje, mar it bedriuw dat it projekt ûntwikkelet, iepenbieret it meganisme foar it oplieden fan 'e modellen net. Om te rinnen kinne jo PyTorch en kaders brûke dy't it ONNX-formaat stypje. Spraaksynteze yn Silero is basearre op it gebrûk fan djip wizige moderne neurale netwurkalgoritmen en metoaden foar digitale sinjaalferwurking.

It wurdt opmurken dat it haadprobleem fan moderne neurale netwurkoplossingen foar spraaksynteze is dat se faak allinich beskikber binne binnen betelle wolkoplossingen, en publike produkten hawwe hege hardwareeasken, binne fan legere kwaliteit, of binne net kompleet en klear foar gebrûk produkten. Bygelyks, om ien fan 'e nije populêre end-to-end synteze-arsjitektueren, VITS, soepel út te fieren yn syntezemodus (dat is net foar modeltraining), binne fideokaarten nedich mei mear as 16 gigabyte fan VRAM.

Yn tsjinstelling ta de hjoeddeistige trend rinne Silero-oplossingen mei súkses sels op 1 x86-thread fan in Intel-prosessor mei AVX2-ynstruksjes. Op 4 prosessor threads, synteze kinne jo synthesize fan 30 oant 60 sekonden per sekonde yn de 8 kHz synteze modus, yn de 24 kHz modus - 15-20 sekonden, en yn de 48 kHz modus - likernôch 10 sekonden.

Wichtige funksjes fan 'e nije Silero-release:

  • De modelgrutte is mei 2 kear fermindere nei 50 megabytes;
  • Modellen witte hoe te pauze;
  • 4 lûden fan hege kwaliteit yn it Russysk binne beskikber (en in ûneinich oantal willekeurige). Foarbylden fan útspraak;
  • De modellen binne 10 kear flugger wurden en, bygelyks, yn 24 kHz-modus kinne jo maksimaal 20 sekonden audio per sekonde synthesisearje op 4 prosessor-threads;
  • Alle stim opsjes foar ien taal wurde ferpakt yn ien model;
  • Modellen kinne folsleine paragrafen fan tekst akseptearje as ynfier, SSML-tags wurde stipe;
  • De synteze wurket tagelyk yn trije samplingfrekwinsjes om út te kiezen - 8, 24 en 48 kilohertz;
  • "Bernproblemen" binne oplost: instabiliteit en ûntbrekkende wurden;
  • Flaggen tafoege om de automatyske pleatsing fan aksinten te kontrolearjen en de pleatsing fan 'e letter "е".

Op it stuit, foar de nijste ferzje fan 'e synteze, 4 stimmen yn it Russysk binne iepenbier beskikber, mar yn' e heine takomst sil de folgjende ferzje wurde publisearre mei de folgjende feroarings:

  • Synteze taryf sil tanimme in oar 2-4 kear;
  • Syntezemodellen foar CIS-talen sille wurde bywurke: Kalmyk, Tatar, Oezbek en Oekraynsk;
  • Modellen foar Jeropeeske talen sille wurde tafoege;
  • Modellen foar Yndiaanske talen sille wurde tafoege;
  • Modellen foar Ingelsk sille wurde tafoege.

Guon fan 'e systeembreuken dy't ynherinte binne yn Silero-synteze:

  • Oars as mear tradisjonele synteze-oplossings lykas RHVoice, hat Silero-synteze gjin SAPI-yntegraasje, maklik te ynstallearjen kliïnten, of yntegraasjes foar Windows en Android;
  • De snelheid, hoewol ûnferbidlik heech foar sa'n oplossing, kin net genôch wêze foar on-the-fly synteze op swakke processors op hege kwaliteit;
  • De auto-aksint-oplossing behannelet gjin homografyen (wurden as kastiel en kastiel) en makket noch flaters, mar dit sil korrizjearre wurde yn takomstige releases;
  • De hjoeddeiske ferzje fan synteze wurket net op processors sûnder AVX2 ynstruksjes (of jo moatte spesifyk feroarje PyTorch ynstellings) omdat ien fan de modules binnen it model wurdt quantized;
  • De hjoeddeistige ferzje fan synteze hat yn essinsje ien PyTorch-ôfhinklikens; al it vulling is "hardwired" binnen it model en JIT-pakketten. De boarne koades fan 'e modellen wurde net publisearre, en ek de koade foar it útfieren fan modellen fan PyTorch-kliïnten foar oare talen;
  • Libtorch, beskikber foar mobile platfoarms, is folle mear folume dan ONNX runtime, mar in ONNX ferzje fan it model is noch net beskikber.

Boarne: opennet.ru

Add a comment