Cập nhật Mozilla Common Voice 8.0

Mozilla đã phát hành bản cập nhật cho bộ dữ liệu Common Voice, bao gồm các mẫu phát âm từ gần 200 người. Dữ liệu được xuất bản dưới dạng phạm vi công cộng (CC0). Các bộ được đề xuất có thể được sử dụng trong các hệ thống máy học để xây dựng các mô hình tổng hợp và nhận dạng giọng nói. So với bản cập nhật trước, khối lượng tài liệu lời nói trong bộ sưu tập đã tăng 30% - từ 13.9 lên 18.2 nghìn giờ lời nói. Số lượng ngôn ngữ được hỗ trợ đã tăng từ 67 lên 87.

Bộ dành cho tiếng Nga bao gồm 2452 người tham gia và 193 giờ tài liệu phát biểu (có 2136 người tham gia và 173 giờ), đối với tiếng Belarus - 6160 người tham gia và 987 giờ (có 3831 người tham gia và 356 giờ), đối với tiếng Ukraina - 684 người tham gia và 76 giờ (có 615 người tham gia và 66 giờ). Hơn 79 nghìn người đã tham gia chuẩn bị tài liệu bằng tiếng Anh, ghi lại 2886 giờ phát biểu được xác nhận (có 75 nghìn người tham gia và 2637 giờ).

Hãy để chúng tôi nhắc bạn rằng dự án Common Voice nhằm mục đích tổ chức công việc chung để tích lũy cơ sở dữ liệu về các mẫu giọng nói có tính đến sự đa dạng của giọng nói và phong cách nói. Người dùng được mời nói các cụm từ hiển thị trên màn hình hoặc đánh giá chất lượng dữ liệu do người dùng khác thêm vào. Cơ sở dữ liệu tích lũy với các bản ghi cách phát âm khác nhau của các cụm từ điển hình trong giọng nói của con người có thể được sử dụng mà không bị hạn chế trong các hệ thống học máy và trong các dự án nghiên cứu. Theo tác giả thư viện nhận dạng giọng nói liên tục Vosk, nhược điểm của bộ Common Voice là chất liệu giọng nói một chiều (ưu tiên nam giới 20-30 tuổi, thiếu chất liệu giọng nói nữ). , trẻ em và người già), thiếu tính đa dạng trong từ điển (lặp lại các cụm từ giống nhau) và phân phối các bản ghi âm ở định dạng MP3 bị bóp méo.

Ngoài ra, chúng ta có thể lưu ý việc phát hành bộ công cụ NVIDIA NeMo 1.6, cung cấp các phương pháp học máy để tạo hệ thống nhận dạng giọng nói, tổng hợp giọng nói và xử lý ngôn ngữ tự nhiên. NeMo bao gồm các mô hình được đào tạo sẵn sàng để sử dụng cho các hệ thống máy học dựa trên khung PyTorch, do NVIDIA chuẩn bị bằng cách sử dụng dữ liệu giọng nói Common Voice và bao gồm nhiều ngôn ngữ, giọng nói và hình thức giọng nói khác nhau. Các mô hình này có thể hữu ích cho các nhà nghiên cứu đang phát triển hệ thống đối thoại dựa trên giọng nói, nền tảng phiên âm và trung tâm cuộc gọi tự động. Ví dụ: NVIDIA NeMo được sử dụng trong các dịch vụ thoại tự động của MTS và Sberbank. Mã NeMo được viết bằng Python sử dụng PyTorch và được phân phối theo giấy phép Apache 2.0.

Nguồn: opennet.ru

Thêm một lời nhận xét