ผู้พัฒนาไลบรารี Vosk ได้เผยแพร่โมเดลใหม่สำหรับการรู้จำเสียงภาษารัสเซีย: เซิร์ฟเวอร์ vosk-model-ru-0.22 และมือถือ Vosk-model-small-ru-0.22 โมเดลเหล่านี้ใช้ข้อมูลคำพูดใหม่ รวมถึงสถาปัตยกรรมโครงข่ายประสาทเทียมใหม่ ซึ่งเพิ่มความแม่นยำในการจดจำขึ้น 10-20% รหัสและข้อมูลเผยแพร่ภายใต้ลิขสิทธิ์ Apache 2.0
การเปลี่ยนแปลงที่สำคัญ:
- ข้อมูลใหม่ที่รวบรวมในลำโพงเสียงช่วยปรับปรุงการจดจำคำสั่งคำพูดที่พูดจากระยะไกลได้อย่างมาก
- รูปแบบการแยกเสียงใหม่ได้ปรับปรุงความแม่นยำในการจดจำสำหรับการบันทึกย่านความถี่กว้างขึ้นอย่างมาก ในขณะเดียวกัน ความแม่นยำของการจดจำโทรศัพท์ก็ได้รับการปรับปรุงเช่นกัน
- แพ็คเกจส่วนขยายพจนานุกรมช่วยให้คุณปรับแต่งการจดจำบันทึกทางเทคนิคที่ซับซ้อนได้
เพื่อความแม่นยำสูงสุด ขอแนะนำให้อัปเดตเวอร์ชัน Wax เป็น 0.3.32 คุณอาจสนใจคุณสมบัติใหม่ของ Vosk - การบูรณาการกับ Unity, Nativescript, Jigasi แบบจำลองการจดจำภาษาคาซัคและยูเครน รุ่นเซิร์ฟเวอร์ต้องใช้โปรเซสเซอร์ที่ทันสมัยและหน่วยความจำ 8GB เพื่อดำเนินการ รุ่นมือถือสามารถใช้ได้กับโทรศัพท์และ RaspberryPi 3+
ที่มา: opennet.ru