Nova emissio Sileronis systematis synthesis orationis

Nova emissio publica Sileronis cum textu ad-Sermonis neuralis retis sermonis synthesis systematis praesto est. Consilium principaliter intenditur ad efficiendam rationem hodiernam, summus qualitas sermonis, synthesin quae non est inferior solutionibus mercatorum a corporationibus et omnibus promptum est sine usu instrumenti servitii pretiosae.

Exempla sub licentia GNU AGPL distributa sunt, sed societas consilii explicandi non ostendit mechanismum ad exempla formandi. Currere, uti potes PyTorch et compagibus quae formam ONNX sustinent. Oratio synthesis in Silero fundatur in usu algorithms reticularium neuralis modernorum penitus mutatorum et instrumentorum processus digitalium signo.

Notandum est principale problema solutionum retis neuralis recentioris sermonis synthesis esse, quod saepe praesto sunt solum intra solutiones nubeculas solvendas, et producta publica requisita ferramenta alta habent, qualitatis inferioris sunt, vel non perfectae et ad usum paratae. producta. Exempli causa, ut unum e novo fine populari, ad synthesin architecturae, VITS, aequaliter in synthesi modo (hoc est, non ad exemplar institutionis) concurratur, chartae video cum plus quam 16 gigabytae VRAM requirantur.

Contra solutiones hodiernae, Silero solutiones feliciter currunt etiam in 1 x86 stamina processus Intel cum instructionibus AVX2. In 4 stamina processus, synthesis permittit ut summatim ab 30 ad 60 secundis per secundam in synthesi modo 8 kHz, in modo 24 kHz - 15-20 secundis, et in 48 kHz modo - circa 10 secundis.

Clavis liniamenta novae Sileronae emissio:

  • Magnitudo exemplaris a 2 temporibus ad 50 megabytis redacta est;
  • Exempla quomodo interponant norunt;
  • 4 Voces qualitates in russico in promptu sunt (et infinitus numerus incerti). Pronunciationis exempla;
  • Exemplaria velociores facti sunt 10 temporibus et, exempli gratia, in 24 kHz modo permittunt te synthesizare usque ad 20 seconds auditionis per secundam in 4 filorum processus;
  • Omnes optiones vocis unius linguae in unum exemplar fasciculatae sunt;
  • Exempla exemplaria integras paragraphos textus sicut input, SSML tags sustentantur;
  • Synthesis opera simul in tribus frequentiis sampling eligendi ex - VIII, XXIV et XLVIII kilohertz;
  • "Problemata pueri" soluta sunt: ​​instabilitas et verba absentis;
  • Vexilla addita ad positionem accentuum et collocationem litterae "Π΅" automatis temperandam.

In praesenti, pro novissima versione synthesis, 4 voces Russicae publice in promptu sunt, sed in proximo evulgabitur versio altera cum sequentibus mutationibus;

  • Synthesis rate augebit aliam 2-4 temporibus;
  • Synthesis exempla pro CIS linguis renovabuntur: Kalmyk, Tatar, Uzbek et Ucraina;
  • Exempla linguae Europaeae adicientur;
  • Exemplar linguarum Indicarum adjicientur;
  • Exempla Latina adjicientur.

Quaedam de naufragii systematis synthesi Silero inhaerentia;

  • Dissimilis synthesis traditae solutiones ut RHVoice, Silero synthesis integrationem SAPI non habet, clientes faciles instituere, vel integrationes pro Fenestra et Android;
  • Celeritas, licet inusitata in talem solutionem alta, sufficere non potest ad synthesim in processibus infirmis processuum qualitatis;
  • Solutio auto- accentuum non tractat homographas (verba castelli et castri) et adhuc errat, sed haec emendabitur in posterum emissiones;
  • Synthesis hodierna versio in processoribus sine instructionibus AVX2 non laborat (vel necesse est ut occasus PyTorch nominatim mutet) quia unus modulorum intra exemplar quantitatus est;
  • Praesens synthesis versio essentialiter unicam PyTorch dependentiam habet, omnia involucrum "fere" intra exemplar et sarcinas JIT. Codices fontium exemplorum publici iuris facta non sunt, sicut et signum ad exempla currentium a PyTorch clientium aliarum linguarum;
  • Libtorch, promptus ad tabulata mobilia, multo ponderosior est quam ONNX runtime, sed exemplar versionis ONNX nondum in promptu est.

Source: opennet.ru