เปิดตัวเครื่องสังเคราะห์เสียงพูด RHVoice 1.6.0 แล้ว

ระบบสังเคราะห์เสียงพูดแบบเปิด RHVoice 1.6.0 เปิดตัวแล้ว โดยเริ่มแรกได้รับการพัฒนาเพื่อให้รองรับคุณภาพสูงสำหรับภาษารัสเซีย แต่ต่อมาได้ดัดแปลงสำหรับภาษาอื่นๆ รวมถึงอังกฤษ โปรตุเกส ยูเครน คีร์กีซ ตาตาร์ และจอร์เจีย รหัสนี้เขียนด้วยภาษา C++ และเผยแพร่ภายใต้ลิขสิทธิ์ LGPL 2.1 รองรับการทำงานบน GNU/Linux, Windows และ Android โปรแกรมนี้เข้ากันได้กับอินเทอร์เฟซ TTS (ข้อความเป็นคำพูด) มาตรฐานสำหรับการแปลงข้อความเป็นคำพูด: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) และ API การแปลงข้อความเป็นคำพูดของ Android แต่ยังสามารถใช้ใน NVDA ได้ด้วย โปรแกรมอ่านหน้าจอ ผู้สร้างและผู้พัฒนาหลักของ RHVoice คือ Olga Yakovleva ผู้พัฒนาโปรเจ็กต์นี้แม้จะตาบอดสนิทก็ตาม

เวอร์ชันใหม่เพิ่ม 5 ตัวเลือกเสียงใหม่สำหรับคำพูดภาษารัสเซีย มีการใช้งานการสนับสนุนภาษาแอลเบเนีย พจนานุกรมสำหรับภาษายูเครนได้รับการอัปเดตแล้ว ขยายการรองรับการแสดงเสียงของตัวละครอิโมจิแล้ว ทำงานเพื่อกำจัดข้อผิดพลาดในแอปพลิเคชันสำหรับแพลตฟอร์ม Android การนำเข้าพจนานุกรมที่กำหนดเองง่ายขึ้นและเพิ่มการรองรับแพลตฟอร์ม Android 11 มีการเพิ่มการตั้งค่าและฟังก์ชันใหม่ให้กับแกนเอ็นจิ้นรวมถึง g2p case, word_break และการสนับสนุนตัวกรองการปรับสมดุล

ให้เราระลึกว่า RHVoice ใช้การพัฒนาของโครงการ HTS (ระบบการสังเคราะห์เสียงพูดที่ใช้ HMM/DNN) และวิธีการสังเคราะห์พารามิเตอร์ด้วยแบบจำลองทางสถิติ (การสังเคราะห์พารามิเตอร์ทางสถิติตาม HMM - โมเดล Markov ที่ซ่อนอยู่) ข้อดีของแบบจำลองทางสถิติคือต้นทุนค่าโสหุ้ยต่ำและกำลัง CPU ที่ไม่ต้องการมาก การดำเนินการทั้งหมดจะดำเนินการภายในระบบของผู้ใช้ รองรับคุณภาพคำพูดสามระดับ (ยิ่งคุณภาพต่ำ ประสิทธิภาพการทำงานก็จะสูงขึ้น และเวลาตอบสนองก็จะสั้นลง)

ข้อเสียของแบบจำลองทางสถิติคือคุณภาพการออกเสียงค่อนข้างต่ำซึ่งไม่ถึงระดับของการสังเคราะห์ที่สร้างคำพูดโดยอาศัยการรวมกันของส่วนของคำพูดที่เป็นธรรมชาติ แต่อย่างไรก็ตามผลลัพธ์ก็ค่อนข้างชัดเจนและคล้ายกับการออกอากาศการบันทึกจากลำโพง . สำหรับการเปรียบเทียบ โครงการ Silero ซึ่งมีกลไกการสังเคราะห์เสียงพูดแบบเปิดที่ใช้เทคโนโลยีการเรียนรู้ของเครื่องและชุดรูปแบบสำหรับภาษารัสเซียนั้นมีคุณภาพเหนือกว่า RHVoice

มีตัวเลือกเสียงให้เลือก 13 แบบสำหรับภาษารัสเซีย และ 5 แบบสำหรับภาษาอังกฤษ เสียงถูกสร้างขึ้นจากการบันทึกคำพูดที่เป็นธรรมชาติ ในการตั้งค่า คุณสามารถเปลี่ยนความเร็ว ระดับเสียง และระดับเสียงได้ ไลบรารี Sonic สามารถใช้เพื่อเปลี่ยนจังหวะได้ เป็นไปได้ที่จะตรวจจับและสลับภาษาโดยอัตโนมัติตามการวิเคราะห์ข้อความที่ป้อน (เช่น สำหรับคำและเครื่องหมายคำพูดในภาษาอื่น สามารถใช้แบบจำลองการสังเคราะห์ที่เป็นของภาษานั้นได้) รองรับโปรไฟล์เสียง โดยกำหนดการผสมเสียงสำหรับภาษาต่างๆ

ที่มา: opennet.ru

เพิ่มความคิดเห็น