Các mô hình mới để nhận dạng giọng nói tiếng Nga trong thư viện Vosk

Các nhà phát triển thư viện Vosk đã xuất bản các mô hình mới để nhận dạng giọng nói tiếng Nga: máy chủ vosk-model-ru-0.22 và Vosk-model-small-ru-0.22 di động. Các mô hình này sử dụng dữ liệu giọng nói mới cũng như kiến ​​trúc mạng thần kinh mới, giúp tăng độ chính xác nhận dạng lên 10-20%. Mã và dữ liệu được phân phối theo giấy phép Apache 2.0.

Những thay đổi quan trọng:

  • Dữ liệu mới được thu thập trong loa thoại cải thiện đáng kể khả năng nhận dạng lệnh thoại được nói từ xa.
  • Sơ đồ trích xuất âm thanh mới đã cải thiện đáng kể độ chính xác nhận dạng cho các bản ghi băng rộng. Đồng thời, độ chính xác của việc nhận dạng điện thoại cũng được cải thiện.
  • Gói mở rộng từ điển cho phép bạn tùy chỉnh việc nhận dạng các hồ sơ kỹ thuật phức tạp.

Để có độ chính xác tốt nhất, nên cập nhật phiên bản Wax lên 0.3.32. Bạn cũng có thể quan tâm đến các tính năng mới của Vosk - tích hợp với Unity, Nativescript, Jigasi. Mô hình nhận dạng tiếng Kazakhstan và tiếng Ukraina. Mô hình máy chủ yêu cầu bộ xử lý hiện đại và bộ nhớ 8GB để hoạt động. Mẫu di động có thể được sử dụng trong điện thoại và RaspberryPi 3+.

Nguồn: opennet.ru

Thêm một lời nhận xét