โมเดลใหม่สำหรับการรู้จำเสียงภาษารัสเซียในไลบรารี Vosk

ผู้พัฒนาไลบรารี Vosk ได้เผยแพร่โมเดลใหม่สำหรับการรู้จำเสียงภาษารัสเซีย: เซิร์ฟเวอร์ vosk-model-ru-0.22 และมือถือ Vosk-model-small-ru-0.22 โมเดลเหล่านี้ใช้ข้อมูลคำพูดใหม่ รวมถึงสถาปัตยกรรมโครงข่ายประสาทเทียมใหม่ ซึ่งเพิ่มความแม่นยำในการจดจำขึ้น 10-20% รหัสและข้อมูลเผยแพร่ภายใต้ลิขสิทธิ์ Apache 2.0

การเปลี่ยนแปลงที่สำคัญ:

  • ข้อมูลใหม่ที่รวบรวมในลำโพงเสียงช่วยปรับปรุงการจดจำคำสั่งคำพูดที่พูดจากระยะไกลได้อย่างมาก
  • รูปแบบการแยกเสียงใหม่ได้ปรับปรุงความแม่นยำในการจดจำสำหรับการบันทึกย่านความถี่กว้างขึ้นอย่างมาก ในขณะเดียวกัน ความแม่นยำของการจดจำโทรศัพท์ก็ได้รับการปรับปรุงเช่นกัน
  • แพ็คเกจส่วนขยายพจนานุกรมช่วยให้คุณปรับแต่งการจดจำบันทึกทางเทคนิคที่ซับซ้อนได้

เพื่อความแม่นยำสูงสุด ขอแนะนำให้อัปเดตเวอร์ชัน Wax เป็น 0.3.32 คุณอาจสนใจคุณสมบัติใหม่ของ Vosk - การบูรณาการกับ Unity, Nativescript, Jigasi แบบจำลองการจดจำภาษาคาซัคและยูเครน รุ่นเซิร์ฟเวอร์ต้องใช้โปรเซสเซอร์ที่ทันสมัยและหน่วยความจำ 8GB เพื่อดำเนินการ รุ่นมือถือสามารถใช้ได้กับโทรศัพท์และ RaspberryPi 3+

ที่มา: opennet.ru

เพิ่มความคิดเห็น