Ny utgåva av Silero talsyntessystem

En ny offentlig version av Silero Text-to-Speech neurala nätverk för talsyntes är tillgänglig. Projektet syftar främst till att skapa ett modernt, högkvalitativt talsyntessystem som inte är sämre än kommersiella lösningar från företag och som är tillgängligt för alla utan användning av dyr serverutrustning.

Modellerna distribueras under GNU AGPL-licensen, men företaget som utvecklar projektet avslöjar inte mekanismen för att träna modellerna. För att köra kan du använda PyTorch och ramverk som stöder ONNX-formatet. Talsyntes i Silero är baserad på användningen av djupt modifierade moderna neurala nätverksalgoritmer och digitala signalbehandlingsmetoder.

Det noteras att huvudproblemet med moderna neurala nätverkslösningar för talsyntes är att de ofta endast är tillgängliga inom betalda molnlösningar, och offentliga produkter har höga hårdvarukrav, är av lägre kvalitet eller inte är kompletta och färdiga att använda. Produkter. Till exempel, för att köra en av de nya populära end-to-end syntesarkitekturerna, VITS, smidigt i syntesläge (det vill säga inte för modellträning), krävs grafikkort med mer än 16 gigabyte VRAM.

I motsats till den nuvarande trenden körs Silero-lösningar framgångsrikt även på 1 x86 tråd av en Intel-processor med AVX2-instruktioner. På 4 processortrådar låter syntes dig syntetisera från 30 till 60 sekunder per sekund i 8 kHz-syntesläget, i 24 kHz-läget - 15-20 sekunder och i 48 kHz-läget - cirka 10 sekunder.

Nyckelfunktioner i den nya Silero-versionen:

  • Modellstorleken har reducerats med 2 gånger till 50 megabyte;
  • Modeller vet hur man pausar;
  • 4 högkvalitativa röster på ryska är tillgängliga (och ett oändligt antal slumpmässiga). Uttalsexempel;
  • Modellerna har blivit 10 gånger snabbare och, till exempel, i 24 kHz-läge låter de dig syntetisera upp till 20 sekunder ljud per sekund på 4 processortrådar;
  • Alla röstalternativ för ett språk är paketerade i en modell;
  • Modeller kan acceptera hela textstycken som indata, SSML-taggar stöds;
  • Syntesen fungerar samtidigt i tre samplingsfrekvenser att välja mellan - 8, 24 och 48 kilohertz;
  • "Barns problem" har lösts: instabilitet och saknade ord;
  • Lade till flaggor för att styra den automatiska placeringen av accenter och placeringen av bokstaven "е".

För närvarande, för den senaste versionen av syntesen, är 4 röster på ryska offentligt tillgängliga, men inom en snar framtid kommer nästa version att publiceras med följande ändringar:

  • Synteshastigheten kommer att öka ytterligare 2-4 gånger;
  • Syntesmodeller för CIS-språk kommer att uppdateras: Kalmyk, Tatar, uzbekiska och ukrainska;
  • Modeller för europeiska språk kommer att läggas till;
  • Modeller för indiska språk kommer att läggas till;
  • Modeller för engelska kommer att läggas till.

Några av systemuppbrotten som är inneboende i Silero-syntes:

  • Till skillnad från mer traditionella synteslösningar som RHVoice har Silero syntes inte SAPI-integration, lättinstallerade klienter eller integrationer för Windows och Android;
  • Hastigheten, även om den är oöverträffad hög för en sådan lösning, kanske inte räcker till för direkt syntes på svaga processorer med hög kvalitet;
  • Autoaccentlösningen hanterar inte homografer (ord som slott och slott) och gör fortfarande misstag, men detta kommer att rättas till i framtida släpp;
  • Den nuvarande versionen av syntes fungerar inte på processorer utan AVX2-instruktioner (eller så behöver du specifikt ändra PyTorch-inställningarna) eftersom en av modulerna inuti modellen är kvantifierad;
  • Den nuvarande versionen av syntes har i huvudsak ett enda PyTorch-beroende; all fyllning är "hardwired" inuti modellen och JIT-paketen. Källkoderna för modellerna publiceras inte, liksom koden för att köra modeller från PyTorch-klienter för andra språk;
  • Libtorch, tillgänglig för mobila plattformar, är mycket mer skrymmande än ONNX runtime, men en ONNX-version av modellen är ännu inte tillgänglig.

Källa: opennet.ru

Lägg en kommentar