Mozilla giới thiệu công cụ nhận dạng giọng nói DeepSpeech 0.6

giới thiệu phát hành công cụ nhận dạng giọng nói do Mozilla phát triển DeepSpeech 0.6, triển khai kiến ​​trúc nhận dạng giọng nói cùng tên, đề xuất bởi các nhà nghiên cứu từ Baidu. Việc triển khai được viết bằng Python sử dụng nền tảng máy học TensorFlow và phân phối bởi theo giấy phép MPL 2.0 miễn phí. Hỗ trợ hoạt động trên Linux, Android, macOS và Windows. Hiệu năng đủ để sử dụng engine trên các bo mạch LePotato, Raspberry Pi 3 và Raspberry Pi 4.

Cũng bao gồm trong bộ ngỏ ý người mẫu được đào tạo, ví dụ tập tin âm thanh và công cụ nhận dạng từ dòng lệnh. Để tích hợp chức năng nhận dạng giọng nói vào chương trình của bạn, chúng tôi cung cấp các mô-đun sẵn sàng sử dụng cho Python, NodeJS, C++ và .NET (các nhà phát triển bên thứ ba có các mô-đun được chuẩn bị riêng cho Rust и Go). Mô hình hoàn thiện chỉ được cung cấp cho tiếng Anh nhưng cho các ngôn ngữ khác bởi đính kèm hướng dẫn bạn có thể tự đào tạo hệ thống bằng cách sử dụng dữ liệu thoại, được thu thập bởi dự án Common Voice.

DeepSpeech đơn giản hơn nhiều so với các hệ thống truyền thống, đồng thời cung cấp khả năng nhận dạng chất lượng cao hơn khi có tiếng ồn bên ngoài. Nó bỏ qua các mô hình âm thanh truyền thống và khái niệm âm vị, thay vào đó sử dụng hệ thống máy học dựa trên mạng thần kinh được tối ưu hóa cao giúp loại bỏ nhu cầu phát triển các thành phần riêng biệt để mô hình hóa các dị thường khác nhau như tiếng ồn, tiếng vang và các tính năng giọng nói.

Nhược điểm của phương pháp này là để có được sự nhận dạng và đào tạo chất lượng cao của mạng lưới thần kinh, công cụ DeepSpeech yêu cầu một lượng lớn dữ liệu không đồng nhất, được đưa ra trong các điều kiện thực tế bởi các giọng nói khác nhau và khi có tiếng ồn tự nhiên.
Một dự án được tạo trong Mozilla sẽ thu thập những dữ liệu đó. Tiếng nói chung, cung cấp bộ dữ liệu đã được xác minh với 780 giờ Tiếng anh, 325 tiếng Đức, 173 tiếng Pháp và 27 giờ tiếng Nga.

Mục tiêu cuối cùng của dự án Common Voice là tích lũy 10 nghìn giờ ghi âm các cách phát âm khác nhau của các cụm từ điển hình trong lời nói của con người, điều này sẽ cho phép đạt được mức độ sai sót có thể chấp nhận được khi nhận dạng. Ở dạng hiện tại, những người tham gia dự án đã đưa ra tổng cộng 4.3 nghìn giờ, trong đó 3.5 nghìn giờ đã được thử nghiệm. Khi đào tạo mô hình tiếng Anh cuối cùng cho DeepSpeech, 3816 giờ nói đã được sử dụng, ngoài dữ liệu Common Voice bao gồm các dự án LibriSpeech, Fisher và Switchboard, đồng thời bao gồm khoảng 1700 giờ ghi âm chương trình radio.

Khi sử dụng mô hình ngôn ngữ tiếng Anh làm sẵn được cung cấp để tải xuống, tỷ lệ lỗi nhận dạng trong DeepSpeech là 7.5% khi được đánh giá bằng bộ kiểm tra Thư việnBài phát biểu. Để so sánh, tỷ lệ lỗi khi nhận dạng con người ước lượng ở mức 5.83%.

DeepSpeech bao gồm hai hệ thống con - mô hình âm thanh và bộ giải mã. Mô hình âm thanh sử dụng các phương pháp học máy sâu để tính toán khả năng xuất hiện một số ký tự nhất định trong âm thanh đầu vào. Bộ giải mã sử dụng thuật toán tìm kiếm tia để chuyển đổi dữ liệu xác suất ký tự thành dạng biểu diễn văn bản.

Chính đổi mới DeepSpeech 0.6 (nhánh 0.6 không tương thích với các bản phát hành trước và yêu cầu cập nhật mã và mô hình):

  • Bộ giải mã phát trực tuyến mới được đề xuất mang lại khả năng phản hồi cao hơn và không phụ thuộc vào kích thước của dữ liệu âm thanh được xử lý. Do đó, phiên bản mới của DeepSpeech đã giảm được độ trễ nhận dạng xuống 260 ms, nhanh hơn 73% so với trước đây và cho phép sử dụng DeepSpeech trong các giải pháp nhận dạng giọng nói một cách nhanh chóng.
  • Các thay đổi đã được thực hiện đối với API và công việc đã được thực hiện để thống nhất tên hàm. Các chức năng đã được thêm vào để có được siêu dữ liệu bổ sung về đồng bộ hóa, cho phép bạn không chỉ nhận bản trình bày văn bản dưới dạng đầu ra mà còn theo dõi sự liên kết của từng ký tự và câu riêng lẻ với một vị trí trong luồng âm thanh.
  • Hỗ trợ sử dụng thư viện đã được thêm vào bộ công cụ cho các học phần đào tạo cuDNN để tối ưu hóa công việc với mạng thần kinh tái phát (RNN), giúp có thể đạt được mức tăng đáng kể (khoảng gấp đôi) về hiệu suất đào tạo mô hình, nhưng yêu cầu thay đổi mã vi phạm khả năng tương thích với các mô hình đã chuẩn bị trước đó.
  • Yêu cầu phiên bản TensorFlow tối thiểu đã được nâng từ 1.13.1 lên 1.14.0. Đã thêm hỗ trợ cho phiên bản nhẹ của TensorFlow Lite, giúp giảm kích thước của gói DeepSpeech từ 98 MB xuống 3.7 MB. Để sử dụng trên các thiết bị nhúng và thiết bị di động, kích thước của tệp được đóng gói cùng với mô hình cũng đã giảm từ 188 MB xuống 47 MB ​​​​(phương pháp lượng tử hóa được sử dụng để nén sau khi mô hình được huấn luyện).
  • Mô hình ngôn ngữ đã được dịch sang định dạng cấu trúc dữ liệu khác cho phép các tệp được ánh xạ vào bộ nhớ khi được tải. Hỗ trợ cho định dạng cũ đã bị ngừng.
  • Chế độ tải tệp có mô hình ngôn ngữ đã được thay đổi, điều này giúp giảm mức tiêu thụ bộ nhớ và giảm độ trễ khi xử lý yêu cầu đầu tiên sau khi tạo mô hình. Trong quá trình hoạt động, DeepSpeech hiện tiêu thụ bộ nhớ ít hơn 22 lần và khởi động nhanh hơn 500 lần.

    Mozilla giới thiệu công cụ nhận dạng giọng nói DeepSpeech 0.6

  • Các từ hiếm đã được lọc trong mô hình ngôn ngữ. Tổng số từ đã giảm xuống còn 500 nghìn từ phổ biến nhất được tìm thấy trong văn bản được sử dụng để huấn luyện mô hình. Việc dọn dẹp giúp giảm kích thước của mô hình ngôn ngữ từ 1800 MB xuống 900 MB mà hầu như không ảnh hưởng đến tỷ lệ lỗi nhận dạng.
  • Đã thêm hỗ trợ cho nhiều kỹ thuật viên tạo các biến thể bổ sung (tăng cường) dữ liệu âm thanh được sử dụng trong đào tạo (ví dụ: thêm biến dạng hoặc tiếng ồn vào một tập hợp tùy chọn).
  • Đã thêm thư viện có các ràng buộc để tích hợp với các ứng dụng dựa trên nền tảng .NET.
  • Tài liệu đã được làm lại và hiện được thu thập trên một trang web riêng. deepspeech.readthedocs.io.

Nguồn: opennet.ru

Thêm một lời nhận xét