Ny udgivelse af Silero talesyntesesystem

En ny offentlig udgivelse af Silero Text-to-Speech neurale netværks talesyntesesystem er tilgængelig. Projektet er primært rettet mod at skabe et moderne talesyntesesystem af høj kvalitet, som ikke er ringere end kommercielle løsninger fra virksomheder og er tilgængeligt for alle uden brug af dyrt serverudstyr.

Modellerne distribueres under GNU AGPL-licensen, men virksomheden, der udvikler projektet, afslører ikke mekanismen til træning af modellerne. For at køre kan du bruge PyTorch og rammer, der understøtter ONNX-formatet. Talesyntese i Silero er baseret på brugen af ​​dybt modificerede moderne neurale netværksalgoritmer og digitale signalbehandlingsmetoder.

Det bemærkes, at hovedproblemet ved moderne neurale netværksløsninger til talesyntese er, at de ofte kun er tilgængelige inden for betalte cloudløsninger, og offentlige produkter har høje hardwarekrav, er af lavere kvalitet eller ikke er komplette og klar til brug. Produkter. For at køre en af ​​de nye populære end-to-end syntesearkitekturer, VITS, glat i syntesetilstand (det vil sige ikke til modeltræning), kræves der videokort med mere end 16 gigabyte VRAM.

I modsætning til den nuværende trend kører Silero-løsninger med succes selv på 1 x86 tråd af en Intel-processor med AVX2-instruktioner. På 4 processortråde giver syntese dig mulighed for at syntetisere fra 30 til 60 sekunder i sekundet i 8 kHz-syntesetilstanden, i 24 kHz-tilstanden - 15-20 sekunder og i 48 kHz-tilstanden - omkring 10 sekunder.

Nøglefunktioner i den nye Silero-udgivelse:

  • Modelstørrelsen er blevet reduceret med 2 gange til 50 megabyte;
  • Modeller ved, hvordan man holder pause;
  • 4 højkvalitetsstemmer på russisk er tilgængelige (og et uendeligt antal tilfældige). Eksempler på udtale;
  • Modellerne er blevet 10 gange hurtigere, og for eksempel giver de dig i 24 kHz-tilstand mulighed for at syntetisere op til 20 sekunders lyd pr. sekund på 4 processortråde;
  • Alle stemmemuligheder for ét sprog er pakket i én model;
  • Modeller kan acceptere hele tekstafsnit som input, SSML-tags understøttes;
  • Syntesen fungerer på én gang i tre samplingsfrekvenser at vælge imellem - 8, 24 og 48 kilohertz;
  • "Børns problemer" er blevet løst: ustabilitet og manglende ord;
  • Tilføjet flag for at kontrollere den automatiske placering af accenter og placeringen af ​​bogstavet "е".

I øjeblikket, for den nyeste version af syntesen, er 4 stemmer på russisk offentligt tilgængelige, men i den nærmeste fremtid vil den næste version blive offentliggjort med følgende ændringer:

  • Syntesehastigheden vil stige yderligere 2-4 gange;
  • Syntesemodeller for CIS-sprog vil blive opdateret: Kalmyk, Tatar, usbekisk og ukrainsk;
  • Modeller til europæiske sprog vil blive tilføjet;
  • Modeller til indiske sprog vil blive tilføjet;
  • Modeller til engelsk vil blive tilføjet.

Nogle af de systemnedbrud, der er iboende i Silero-syntese:

  • I modsætning til mere traditionelle synteseløsninger såsom RHVoice, har Silero syntese ikke SAPI-integration, klienter, der er nemme at installere, eller integrationer til Windows og Android;
  • Hastigheden, selvom den er hidtil uset høj for en sådan løsning, er muligvis ikke tilstrækkelig til on-the-fly syntese på svage processorer i høj kvalitet;
  • Auto-accentløsningen håndterer ikke homografer (ord som slot og slot) og laver stadig fejl, men dette vil blive rettet i fremtidige udgivelser;
  • Den nuværende version af syntese virker ikke på processorer uden AVX2-instruktioner (eller du skal specifikt ændre PyTorch-indstillinger), fordi et af modulerne inde i modellen er kvantiseret;
  • Den nuværende version af syntese har i det væsentlige en enkelt PyTorch-afhængighed; alt fyld er "hardwired" inde i modellen og JIT-pakkerne. Modellernes kildekoder offentliggøres ikke, samt koden til at køre modeller fra PyTorch-klienter til andre sprog;
  • Libtorch, tilgængelig til mobile platforme, er meget mere omfangsrig end ONNX runtime, men en ONNX version af modellen er endnu ikke tilgængelig.

Kilde: opennet.ru

Tilføj en kommentar