Nuwe vrystelling van Silero-spraaksintesestelsel

'n Nuwe publieke vrystelling van die Silero teks-na-spraak neurale netwerk spraaksintese stelsel is beskikbaar. Die projek is hoofsaaklik daarop gemik om 'n moderne spraaksintesestelsel van hoë gehalte te skep wat nie minderwaardig is as kommersiële oplossings van korporasies nie en vir almal toeganklik is sonder die gebruik van duur bedienertoerusting.

Die modelle word onder die GNU AGPL-lisensie versprei, maar die maatskappy wat die projek ontwikkel, maak nie die meganisme vir die opleiding van die modelle bekend nie. Om te hardloop, kan jy PyTorch en raamwerke gebruik wat die ONNX-formaat ondersteun. Spraaksintese in Silero is gebaseer op die gebruik van diep gemodifiseerde moderne neurale netwerkalgoritmes en digitale seinverwerkingsmetodes.

Daar word opgemerk dat die hoofprobleem van moderne neurale netwerkoplossings vir spraaksintese is dat dit dikwels slegs binne betaalde wolkoplossings beskikbaar is, en publieke produkte het hoë hardewarevereistes, van laer gehalte is, of nie volledig en gereed is om te gebruik nie. produkte. Byvoorbeeld, om een ​​van die nuwe gewilde end-tot-end sintese-argitekture, VITS, glad in sintesemodus te laat loop (dit wil sê nie vir modelopleiding nie), word videokaarte met meer as 16 gigagrepe VRAM benodig.

In teenstelling met die huidige neiging, loop Silero-oplossings suksesvol selfs op 1 x86-draad van 'n Intel-verwerker met AVX2-instruksies. Op 4 verwerkerdrade laat sintese jou toe om van 30 tot 60 sekondes per sekonde te sintetiseer in die 8 kHz-sintesemodus, in die 24 kHz-modus - 15-20 sekondes, en in die 48 kHz-modus - ongeveer 10 sekondes.

Belangrike kenmerke van die nuwe Silero-vrystelling:

  • Die modelgrootte is met 2 keer verminder tot 50 megagrepe;
  • Modelle weet hoe om te pouseer;
  • 4 hoë-gehalte stemme in Russies is beskikbaar (en 'n oneindige aantal ewekansiges). Uitspraak voorbeelde;
  • Die modelle het 10 keer vinniger geword en, byvoorbeeld, in 24 kHz-modus laat hulle jou toe om tot 20 sekondes oudio per sekonde op 4 verwerkerdrade te sintetiseer;
  • Alle stemopsies vir een taal word in een model verpak;
  • Modelle kan hele paragrawe van teks as invoer aanvaar, SSML-etikette word ondersteun;
  • Die sintese werk gelyktydig in drie steekproeffrekwensies om van te kies - 8, 24 en 48 kilohertz;
  • "Kinders se probleme" is opgelos: onstabiliteit en ontbrekende woorde;
  • Vlae bygevoeg om die outomatiese plasing van aksent en die plasing van die letter "е" te beheer.

Tans, vir die nuutste weergawe van die sintese, is 4 stemme in Russies publiek beskikbaar, maar in die nabye toekoms sal die volgende weergawe gepubliseer word met die volgende veranderinge:

  • Die sintesetempo sal nog 2-4 keer toeneem;
  • Sintesemodelle vir GOS-tale sal opgedateer word: Kalmyk, Tataars, Oesbekies en Oekraïens;
  • Modelle vir Europese tale sal bygevoeg word;
  • Modelle vir Indiese tale sal bygevoeg word;
  • Modelle vir Engels sal bygevoeg word.

Sommige van die stelselafbrekings wat inherent is aan Silero-sintese:

  • Anders as meer tradisionele sintese-oplossings soos RHVoice, het Silero-sintese nie SAPI-integrasie, maklik-om-te-installeer-kliënte of integrasies vir Windows en Android nie;
  • Die spoed, hoewel ongekend hoog vir so 'n oplossing, is dalk nie voldoende vir on-the-fly sintese op swak verwerkers teen hoë gehalte nie;
  • Die outo-aksentoplossing hanteer nie homograwe nie (woorde soos kasteel en kasteel) en maak steeds foute, maar dit sal in toekomstige vrystellings reggestel word;
  • Die huidige weergawe van sintese werk nie op verwerkers sonder AVX2-instruksies nie (of jy moet PyTorch-instellings spesifiek verander) omdat een van die modules binne die model gekwantiseer is;
  • Die huidige weergawe van sintese het in wese 'n enkele PyTorch-afhanklikheid; al die vulsel is "hardwired" binne die model en JIT-pakkette. Die bronkodes van die modelle word nie gepubliseer nie, sowel as die kode vir die loop van modelle van PyTorch-kliënte vir ander tale;
  • Libtorch, beskikbaar vir mobiele platforms, is baie meer lywig as ONNX-looptyd, maar 'n ONNX-weergawe van die model is nog nie beskikbaar nie.

Bron: opennet.ru

Voeg 'n opmerking