Нээлттэй эхийн ярианы синтезийн систем болох RHVoice 1.6.0 хувилбарыг гаргалаа. Анх орос хэлийг өндөр чанартай дэмжих зорилгоор боловсруулсан бөгөөд түүнээс хойш Англи, Португал, Украин, Киргиз, Татар, Гүрж зэрэг бусад хэлэнд тохируулан өөрчилсөн. Код нь C++ хэл дээр бичигдсэн бөгөөд LGPL 2.1 лицензийн дагуу түгээгддэг. GNU/Linux дэмжлэгийг мөн дэмждэг.Linux, Windows и AndroidЭнэ програм нь текстийг яриа болгон хөрвүүлэх ердийн TTS (текстээс яриа руу) интерфэйсүүдтэй нийцдэг: SAPI5 (Windows), Ярианы диспетчер (GNU/Linux) болон Android Текстээс ярианд хувиргах API боловч NVDA дэлгэц уншигчтай хамт ашиглаж болно. RHVoice-ийн бүтээгч бөгөөд гол хөгжүүлэгч нь Ольга Яковлева бөгөөд тэрээр бүрэн хараагүй байсан ч төслийг үргэлжлүүлэн хөгжүүлсээр байна.
Шинэ хувилбарт орос хэлний ярианд зориулсан 5 шинэ дуут сонголт нэмэгдсэн. Албани хэлний дэмжлэгийг хэрэгжүүлсэн. Украйн толь бичгийг шинэчилсэн. Эможи дуудлагын дэмжлэгийг өргөжүүлсэн. Платформ аппликейшнд алдааны засваруудыг хэрэгжүүлсэн. Android, хэрэглэгчийн толь бичгүүдийг импортлохыг хялбаршуулсан бөгөөд платформын дэмжлэгийг нэмсэн Android 11. Хөдөлгүүрийн цөмд g2p.case, word_break болон тэгшитгэх шүүлтүүрийг дэмжих зэрэг шинэ тохиргоо болон функцууд нэмэгдсэн.
RHVoice нь HTS төслийн бүтээн байгуулалтыг (HMM/DNN-д суурилсан ярианы синтезийн систем) болон статистик загвартай нийлэгжүүлэх параметрийн аргыг (HMM дээр суурилсан статистик параметрийн синтез - Далд Марковын загвар) ашигладаг гэдгийг эргэн санацгаая. Статистик загварын давуу тал нь зардал багатай, CPU-ийн хүч чадал багатай байдаг. Бүх үйлдлүүд нь хэрэглэгчийн систем дээр локал байдлаар хийгддэг. Ярианы чанарын гурван түвшнийг дэмждэг (чанар бага байх тусам гүйцэтгэл өндөр, хариу үйлдэл үзүүлэх хугацаа богино байх болно).
Статистик загварын сул тал нь дуудлагын харьцангуй бага чанар бөгөөд энэ нь байгалийн ярианы хэсгүүдийн хослол дээр үндэслэн яриа үүсгэдэг синтезаторын түвшинд хүрч чаддаггүй боловч үр дүн нь нэлээд ойлгомжтой бөгөөд чанга яригчаас бичлэг цацаж байгаатай адил юм. . Харьцуулбал, машин сургалтын технологи, орос хэлний багц загвар дээр суурилсан нээлттэй ярианы синтезийн хөдөлгүүрээр хангадаг Silero төсөл нь чанарын хувьд RHVoice-ээс давуу юм.
Орос хэл дээр 13, англи хэл дээр 5 дуу хоолойны сонголтууд байдаг. Дуу хоолойнууд нь байгалийн ярианы бичлэг дээр тулгуурлан бүтээгдсэн. Тохиргоонд та хурд, дууны түвшин, дууны хэмжээг өөрчлөх боломжтой. Sonic номын санг хурдыг өөрчлөхөд ашиглаж болно. Оруулсан текстийн дүн шинжилгээнд үндэслэн хэлийг автоматаар илрүүлж, солих боломжтой (жишээлбэл, өөр хэл дээрх үг, ишлэлд тухайн хэлнээс гаралтай синтезийн загварыг ашиглаж болно). Янз бүрийн хэлний дуу хоолойны хослолыг тодорхойлдог дуут профайлыг дэмждэг.
Эх сурвалж: opennet.ru
