Utoaji wa sanisi ya hotuba ya RHVoice 1.8.0

Mfumo wa usanisi wa hotuba ya wazi RHVoice 1.8.0 ilitolewa, hapo awali ilitengenezwa ili kutoa usaidizi wa hali ya juu kwa lugha ya Kirusi, lakini ikabadilishwa kwa lugha zingine, pamoja na Kiingereza, Kireno, Kiukreni, Kirigizi, Kitatari na Kijojiajia. Msimbo umeandikwa katika C++ na kusambazwa chini ya leseni ya LGPL 2.1. Inaauni kazi kwenye GNU/Linux, Windows na Android. Programu inaendana na violesura vya kawaida vya TTS (maandishi-hadi-hotuba) vya kubadilisha maandishi kuwa hotuba: SAPI5 (Windows), Dispatcher ya Hotuba (GNU/Linux) na API ya Maandishi-hadi-Hotuba ya Android, lakini pia inaweza kutumika katika NVDA. kisoma skrini. Muundaji na msanidi mkuu wa RHVoice ni Olga Yakovleva, ambaye anaendeleza mradi licha ya kuwa kipofu kabisa.

Toleo la 1.8 la mfumo wa Android linatanguliza mfumo mpya wa kudhibiti data ya sauti na lugha unaokuruhusu kupakua masasisho ya data ya sauti bila kusasisha programu ya simu. Masasisho ya data ya sauti na lugha zilizoongezwa huangaliwa kiotomatiki. Kwa kuongezea, toleo jipya linatanguliza usaidizi kwa lugha ya Kipolandi na kuongeza sauti mpya kwa lugha ya Kimasedonia. Utangamano na matoleo ya hivi punde ya alpha na beta ya kisomaji skrini cha NVDA imehakikishwa. Kutatua matatizo ya kujenga kwenye jukwaa la Linux ambayo yalitokea wakati Speech Dispatcher haikuwepo.

Tukumbuke kwamba RHVoice hutumia maendeleo ya mradi wa HTS (Mfumo wa Usanisi wa Hotuba unaotegemea HMM/DNN) na mbinu ya usanisi ya parametric yenye miundo ya takwimu (Takwimu Parametric Synthesis kulingana na HMM - Fiche Markov Model). Faida ya mfano wa takwimu ni gharama ya chini ya uendeshaji na nguvu ya CPU isiyohitajika. Shughuli zote zinafanywa ndani ya nchi kwenye mfumo wa mtumiaji. Viwango vitatu vya ubora wa usemi vinaauniwa (kadiri ubora unavyopungua, utendaji wa juu na jinsi muda wa maitikio unavyopungua).

Upande wa chini wa mtindo wa takwimu ni ubora wa chini wa matamshi, ambao haufikii kiwango cha synthesizers ambayo hutoa hotuba kulingana na mchanganyiko wa vipande vya hotuba ya asili, lakini matokeo yake yanasomeka kabisa na yanafanana na utangazaji wa rekodi kutoka kwa kipaza sauti. . Kwa kulinganisha, mradi wa Silero, ambao hutoa injini ya usanisi wa hotuba wazi kulingana na teknolojia ya kujifunza mashine na seti ya mifano ya lugha ya Kirusi, ni bora kuliko RHVoice kwa ubora.

Kuna chaguo 14 za sauti zinazopatikana kwa lugha ya Kirusi, na 6 kwa Kiingereza. Sauti zinaundwa kulingana na rekodi za hotuba ya asili. Katika mipangilio unaweza kubadilisha kasi, sauti na sauti. Maktaba ya Sonic inaweza kutumika kubadilisha tempo. Inawezekana kugundua na kubadili lugha kiotomatiki kulingana na uchanganuzi wa maandishi ya ingizo (kwa mfano, kwa maneno na nukuu katika lugha nyingine, muundo wa usanisi wa lugha hiyo unaweza kutumika). Profaili za sauti zinaauniwa, kufafanua michanganyiko ya sauti za lugha tofauti.

Chanzo: opennet.ru

Kuongeza maoni