Nieuwe release van het Silero-spraaksynthesesysteem

Er is een nieuwe publieke release beschikbaar van het Silero Text-to-Speech neurale netwerk-spraaksynthesesysteem. Het project is primair gericht op het creëren van een modern, kwalitatief hoogstaand spraaksynthesesysteem dat niet onderdoet voor commerciële oplossingen van bedrijven en voor iedereen toegankelijk is zonder gebruik te maken van dure serverapparatuur.

De modellen worden gedistribueerd onder de GNU AGPL-licentie, maar het bedrijf dat het project ontwikkelt, maakt het mechanisme voor het trainen van de modellen niet bekend. Om te draaien kunt u PyTorch en frameworks gebruiken die het ONNX-formaat ondersteunen. Spraaksynthese in Silero is gebaseerd op het gebruik van diep gewijzigde moderne neurale netwerkalgoritmen en digitale signaalverwerkingsmethoden.

Opgemerkt wordt dat het grootste probleem van moderne neurale netwerkoplossingen voor spraaksynthese is dat ze vaak alleen beschikbaar zijn binnen betaalde cloudoplossingen, en dat publieke producten hoge hardwarevereisten hebben, van lagere kwaliteit zijn of niet compleet en gebruiksklaar zijn. producten. Om bijvoorbeeld een van de nieuwe populaire end-to-end synthese-architecturen, VITS, soepel in de synthesemodus te laten draaien (dat wil zeggen, niet voor modeltraining), zijn videokaarten met meer dan 16 gigabyte VRAM vereist.

In tegenstelling tot de huidige trend draaien Silero-oplossingen zelfs succesvol op 1 x86 thread van een Intel-processor met AVX2-instructies. Op 4 processorthreads kunt u met synthese 30 tot 60 seconden per seconde synthetiseren in de 8 kHz-synthesemodus, in de 24 kHz-modus - 15-20 seconden en in de 48 kHz-modus - ongeveer 10 seconden.

Belangrijkste kenmerken van de nieuwe Silero-release:

  • De modelgrootte is tweemaal verkleind tot 2 megabyte;
  • Modellen weten hoe ze moeten pauzeren;
  • Er zijn 4 hoogwaardige stemmen in het Russisch beschikbaar (en een oneindig aantal willekeurige stemmen). Uitspraakvoorbeelden;
  • De modellen zijn 10 keer sneller geworden en laten je bijvoorbeeld in de 24 kHz-modus tot 20 seconden audio per seconde synthetiseren op 4 processorthreads;
  • Alle stemopties voor één taal zijn verpakt in één model;
  • Modellen kunnen hele tekstparagrafen als invoer accepteren, SSML-tags worden ondersteund;
  • De synthese werkt tegelijk in drie bemonsteringsfrequenties om uit te kiezen: 8, 24 en 48 kilohertz;
  • “Kinderproblemen” zijn opgelost: instabiliteit en ontbrekende woorden;
  • Vlaggen toegevoegd om de automatische plaatsing van accenten en de plaatsing van de letter “е” te controleren.

Momenteel zijn voor de nieuwste versie van de synthese 4 stemmen in het Russisch openbaar beschikbaar, maar in de nabije toekomst zal de volgende versie worden gepubliceerd met de volgende wijzigingen:

  • De synthesesnelheid zal nog eens 2-4 keer toenemen;
  • Synthesemodellen voor GOS-talen zullen worden bijgewerkt: Kalmyk, Tataars, Oezbeeks en Oekraïens;
  • Er zullen modellen voor Europese talen worden toegevoegd;
  • Er zullen modellen voor Indiase talen worden toegevoegd;
  • Er worden modellen voor Engels toegevoegd.

Enkele systeemstoringen die inherent zijn aan de Silero-synthese:

  • In tegenstelling tot meer traditionele syntheseoplossingen zoals RHVoice, heeft Silero-synthese geen SAPI-integratie, eenvoudig te installeren clients of integraties voor Windows en Android;
  • De snelheid, hoewel ongekend hoog voor een dergelijke oplossing, is mogelijk niet voldoende voor on-the-fly synthese op zwakke processors met hoge kwaliteit;
  • De auto-accent-oplossing verwerkt geen homografen (woorden als kasteel en kasteel) en maakt nog steeds fouten, maar dit zal in toekomstige releases worden gecorrigeerd;
  • De huidige versie van synthese werkt niet op processors zonder AVX2-instructies (of je moet specifiek de PyTorch-instellingen wijzigen) omdat een van de modules in het model gekwantiseerd is;
  • De huidige versie van synthese heeft in wezen één enkele PyTorch-afhankelijkheid; alle vulling is “hardwired” in het model en de JIT-pakketten. De broncodes van de modellen worden niet gepubliceerd, evenals de code voor het uitvoeren van modellen van PyTorch-clients voor andere talen;
  • Libtorch, beschikbaar voor mobiele platforms, is veel omvangrijker dan ONNX-runtime, maar een ONNX-versie van het model is nog niet beschikbaar.

Bron: opennet.ru

Voeg een reactie