Nuova versione del sistema di sintesi vocale Silero

È disponibile una nuova versione pubblica del sistema di sintesi vocale a rete neurale Silero Text-to-Speech. Il progetto mira principalmente a creare un sistema di sintesi vocale moderno e di alta qualità, non inferiore alle soluzioni commerciali delle aziende e accessibile a tutti, senza l'utilizzo di costosi server.

I modelli sono distribuiti con licenza GNU AGPL, ma l'azienda che sviluppa il progetto non divulga il meccanismo di addestramento dei modelli. Per il lancio è possibile utilizzare PyTorch e framework con supporto al formato ONNX. La sintesi vocale in Silero si basa sull'utilizzo di algoritmi di reti neurali moderne profondamente modificati e di metodi di elaborazione digitale del segnale.

Si noti che il problema principale delle moderne soluzioni di reti neurali per la sintesi vocale è che spesso sono disponibili solo come parte di soluzioni cloud a pagamento, mentre i prodotti pubblici hanno requisiti hardware elevati, sono di qualità inferiore o non sono completi e pronti all'uso. Ad esempio, per lanciare senza problemi una delle nuove e popolari architetture di sintesi end-to-end, VITS, in modalità di sintesi (ovvero non per modelli di training), sono necessarie schede video con più di 16 gigabyte di VRAM.

Contrariamente alla tendenza consolidata, le soluzioni Silero vengono lanciate con successo anche su 1 thread del processore Intel x86 con istruzioni AVX2. Su 4 thread del processore, la sintesi consente di sintetizzare da 30 a 60 secondi al secondo nella modalità di sintesi a 8 kHz, 24-15 secondi nella modalità a 20 kHz e circa 48 secondi nella modalità a 10 kHz.

Caratteristiche principali della nuova versione di Silero:

  • La dimensione del modello è stata ridotta di 2 volte, arrivando a 50 megabyte;
  • Le modelle sanno come fermarsi;
  • 4 voci russe di alta qualità disponibili (e un numero infinito di voci casuali). Esempi di pronuncia;
  • I modelli sono diventati 10 volte più veloci e, ad esempio, in modalità 24 kHz, consentono di sintetizzare fino a 20 secondi di audio al secondo su 4 thread del processore;
  • Tutte le opzioni vocali per una lingua sono raggruppate in un unico modello;
  • I modelli possono accettare interi paragrafi di testo come input, sono supportati i tag SSML;
  • La sintesi funziona contemporaneamente a tre frequenze di campionamento: 8, 24 e 48 kilohertz;
  • Sono stati risolti i “problemi dei bambini”: instabilità e omissioni di parole;
  • Aggiunti flag per controllare il posizionamento automatico dei segni di accento e il posizionamento della lettera "ё".

Attualmente sono disponibili al pubblico 4 voci in russo per la versione più recente della sintesi, ma a breve verrà pubblicata la versione successiva con le seguenti modifiche:

  • La velocità di sintesi aumenterà di altre 2-4 volte;
  • Saranno aggiornati i modelli di sintesi per le lingue della CSI: calmucco, tataro, uzbeko e ucraino;
  • Saranno aggiunti modelli per le lingue europee;
  • Saranno aggiunti modelli per le lingue indiane;
  • Saranno aggiunti modelli per la lingua inglese.

Alcune delle ripartizioni sistemiche inerenti alla sintesi di Silero sono:

  • A differenza delle soluzioni di sintesi più tradizionali come RHVoice, la sintesi Silero non dispone di integrazione SAPI, client facili da installare o integrazioni per Windows и Android;
  • La velocità, sebbene senza precedenti per una soluzione del genere, potrebbe essere insufficiente per la sintesi al volo su processori deboli in alta qualità;
  • La soluzione di posizionamento automatico dell'accento non gestisce gli omografi (parole come zAmok e zamOk) e continua a commettere errori, ma questo problema verrà risolto nelle versioni future;
  • La versione corrente della sintesi non funziona su processori senza istruzioni AVX2 (o è necessario modificare specificamente le impostazioni PyTorch) perché uno dei moduli all'interno del modello è quantizzato;
  • La versione attuale di synthesis ha essenzialmente una singola dipendenza da PyTorch, tutto il "riempimento" è "cucito" nel modello e nei pacchetti JIT. I codici sorgente dei modelli non sono pubblicati, così come il codice per l'esecuzione dei modelli dai client PyTorch per altri linguaggi;
  • Libtorch, disponibile per piattaforme mobili, è molto più macchinoso del runtime ONNX, ma non è ancora disponibile una versione ONNX del modello.

Fonte: opennet.ru

Acquista hosting affidabile per siti con protezione DDoS, server VPS VDS 🔥 Acquista un hosting web affidabile con protezione DDoS, server VPS e VDS | ProHoster