Cập nhật Mozilla Common Voice 7.0

NVIDIA và Mozilla đã phát hành bản cập nhật cho bộ dữ liệu Common Voice của họ, bao gồm 182 mẫu giọng nói của mọi người, tăng 25% so với 6 tháng trước. Dữ liệu được xuất bản dưới dạng phạm vi công cộng (CC0). Các bộ được đề xuất có thể được sử dụng trong các hệ thống máy học để xây dựng các mô hình nhận dạng và tổng hợp giọng nói.

So với bản cập nhật trước, kích thước của tài liệu giọng nói trong bộ sưu tập đã tăng từ 9 lên 13.9 nghìn giờ lời nói. Số lượng ngôn ngữ được hỗ trợ đã tăng từ 60 lên 76, bao gồm cả lần đầu tiên hỗ trợ cho các ngôn ngữ Belarus, Kazakhstan, Uzbek, Bulgaria, Armenia, Azerbaijan và Bashkir. Bộ dành cho tiếng Nga bao gồm 2136 người tham gia và 173 giờ tài liệu phát biểu (có 1412 người tham gia và 111 giờ), và dành cho tiếng Ukraina - 615 người tham gia và 66 giờ (có 459 người tham gia và 30 giờ).

Hơn 75 nghìn người đã tham gia chuẩn bị tài liệu bằng tiếng Anh, ghi lại 2637 giờ phát biểu được xác nhận (có 66 nghìn người tham gia và 1686 giờ). Điều thú vị là ngôn ngữ đứng thứ hai về lượng dữ liệu tích lũy là Rwanda, với 2260 giờ đã được thu thập. Tiếp theo là tiếng Đức (1040), tiếng Catalan (920) và Esperanto (840). Trong số các ngôn ngữ tăng kích thước dữ liệu giọng nói linh hoạt nhất là tiếng Thái (tăng gấp 20 lần về cơ bản, từ 12 lên 250 giờ), Luganda (từ 8 lên 80 giờ), Esperanto (từ 100 lên 840 giờ) và Tamil ( từ 24 đến 220 giờ). giờ).

Là một phần của việc tham gia vào dự án Common Voice, NVIDIA đã chuẩn bị các mô hình được đào tạo sẵn cho các hệ thống máy học (được PyTorch hỗ trợ) dựa trên dữ liệu được thu thập. Các mô hình này được phân phối như một phần của bộ công cụ NVIDIA NeMo mở và miễn phí, chẳng hạn, bộ công cụ này đã được sử dụng trong các dịch vụ thoại tự động của MTS và Sberbank. Các mô hình này được thiết kế để sử dụng trong hệ thống nhận dạng giọng nói, tổng hợp giọng nói và xử lý ngôn ngữ tự nhiên và có thể hữu ích cho các nhà nghiên cứu xây dựng hệ thống đối thoại kích hoạt bằng giọng nói, nền tảng phiên âm và trung tâm cuộc gọi tự động. Không giống như các dự án có sẵn trước đây, các mô hình được xuất bản không giới hạn ở khả năng nhận dạng ngôn ngữ tiếng Anh và bao gồm nhiều ngôn ngữ, giọng nói và hình thức nói khác nhau.

Hãy để chúng tôi nhắc bạn rằng dự án Common Voice nhằm mục đích tổ chức công việc chung để tích lũy cơ sở dữ liệu về các mẫu giọng nói có tính đến sự đa dạng của giọng nói và phong cách nói. Người dùng được mời nói các cụm từ hiển thị trên màn hình hoặc đánh giá chất lượng dữ liệu do người dùng khác thêm vào. Cơ sở dữ liệu tích lũy với các bản ghi cách phát âm khác nhau của các cụm từ điển hình trong giọng nói của con người có thể được sử dụng mà không bị hạn chế trong các hệ thống học máy và trong các dự án nghiên cứu.

Theo tác giả thư viện nhận dạng giọng nói liên tục Vosk, nhược điểm của bộ Common Voice là chất liệu giọng nói một chiều (ưu tiên nam giới 20-30 tuổi, thiếu chất liệu giọng nói nữ). , trẻ em và người già), sự thiếu đa dạng trong từ điển (lặp lại các cụm từ giống nhau) và việc phân phối các bản ghi âm ở định dạng MP3 bị bóp méo.

Nguồn: opennet.ru

Thêm một lời nhận xét