เปิดตัวเครื่องสังเคราะห์เสียงพูด RHVoice 1.8.0 แล้ว

ระบบสังเคราะห์เสียงพูดแบบเปิด RHVoice 1.8.0 เปิดตัวแล้ว โดยเริ่มแรกได้รับการพัฒนาเพื่อให้รองรับคุณภาพสูงสำหรับภาษารัสเซีย แต่ต่อมาได้ดัดแปลงสำหรับภาษาอื่นๆ รวมถึงอังกฤษ โปรตุเกส ยูเครน คีร์กีซ ตาตาร์ และจอร์เจีย รหัสนี้เขียนด้วยภาษา C++ และเผยแพร่ภายใต้ลิขสิทธิ์ LGPL 2.1 รองรับการทำงานบน GNU/Linux, Windows และ Android โปรแกรมนี้เข้ากันได้กับอินเทอร์เฟซ TTS (ข้อความเป็นคำพูด) มาตรฐานสำหรับการแปลงข้อความเป็นคำพูด: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) และ API การแปลงข้อความเป็นคำพูดของ Android แต่ยังสามารถใช้ใน NVDA ได้ด้วย โปรแกรมอ่านหน้าจอ ผู้สร้างและผู้พัฒนาหลักของ RHVoice คือ Olga Yakovleva ผู้พัฒนาโปรเจ็กต์นี้แม้จะตาบอดสนิทก็ตาม

เวอร์ชัน 1.8 สำหรับแพลตฟอร์ม Android แนะนำระบบการจัดการข้อมูลเสียงพูดและภาษาใหม่ที่ให้คุณดาวน์โหลดการอัปเดตข้อมูลเสียงโดยไม่ต้องอัปเดตแอปพลิเคชันมือถือ การอัปเดตข้อมูลสำหรับเสียงและภาษาที่เพิ่มเข้ามาจะถูกตรวจสอบโดยอัตโนมัติ นอกจากนี้ รุ่นใหม่ยังแนะนำการสนับสนุนสำหรับภาษาโปแลนด์และเพิ่มเสียงใหม่สำหรับภาษามาซิโดเนีย รับประกันความเข้ากันได้กับโปรแกรมอ่านหน้าจอ NVDA รุ่นอัลฟ่าและเบต้าล่าสุด แก้ไขปัญหาเกี่ยวกับการสร้างบนแพลตฟอร์ม Linux ที่เกิดขึ้นเมื่อไม่มี Speech Dispatcher

ให้เราระลึกว่า RHVoice ใช้การพัฒนาของโครงการ HTS (ระบบการสังเคราะห์เสียงพูดที่ใช้ HMM/DNN) และวิธีการสังเคราะห์พารามิเตอร์ด้วยแบบจำลองทางสถิติ (การสังเคราะห์พารามิเตอร์ทางสถิติตาม HMM - โมเดล Markov ที่ซ่อนอยู่) ข้อดีของแบบจำลองทางสถิติคือต้นทุนค่าโสหุ้ยต่ำและกำลัง CPU ที่ไม่ต้องการมาก การดำเนินการทั้งหมดจะดำเนินการภายในระบบของผู้ใช้ รองรับคุณภาพคำพูดสามระดับ (ยิ่งคุณภาพต่ำ ประสิทธิภาพการทำงานก็จะสูงขึ้น และเวลาตอบสนองก็จะสั้นลง)

ข้อเสียของแบบจำลองทางสถิติคือคุณภาพการออกเสียงค่อนข้างต่ำซึ่งไม่ถึงระดับของการสังเคราะห์ที่สร้างคำพูดโดยอาศัยการรวมกันของส่วนของคำพูดที่เป็นธรรมชาติ แต่อย่างไรก็ตามผลลัพธ์ก็ค่อนข้างชัดเจนและคล้ายกับการออกอากาศการบันทึกจากลำโพง . สำหรับการเปรียบเทียบ โครงการ Silero ซึ่งมีกลไกการสังเคราะห์เสียงพูดแบบเปิดที่ใช้เทคโนโลยีการเรียนรู้ของเครื่องและชุดรูปแบบสำหรับภาษารัสเซียนั้นมีคุณภาพเหนือกว่า RHVoice

มีตัวเลือกเสียงให้เลือก 14 แบบสำหรับภาษารัสเซีย และ 6 แบบสำหรับภาษาอังกฤษ เสียงถูกสร้างขึ้นจากการบันทึกคำพูดที่เป็นธรรมชาติ ในการตั้งค่า คุณสามารถเปลี่ยนความเร็ว ระดับเสียง และระดับเสียงได้ ไลบรารี Sonic สามารถใช้เพื่อเปลี่ยนจังหวะได้ เป็นไปได้ที่จะตรวจจับและสลับภาษาโดยอัตโนมัติตามการวิเคราะห์ข้อความที่ป้อน (เช่น สำหรับคำและเครื่องหมายคำพูดในภาษาอื่น สามารถใช้แบบจำลองการสังเคราะห์ที่เป็นของภาษานั้นได้) รองรับโปรไฟล์เสียง โดยกำหนดการผสมเสียงสำหรับภาษาต่างๆ

ที่มา: opennet.ru

เพิ่มความคิดเห็น