NVIDIA đầu tư 1.5 triệu USD vào dự án Mozilla Common Voice

NVIDIA đang đầu tư 1.5 triệu USD vào dự án Mozilla Common Voice. Sự quan tâm đến hệ thống nhận dạng giọng nói bắt nguồn từ dự đoán rằng trong mười năm tới, công nghệ giọng nói sẽ trở thành một trong những cách chính mà mọi người tương tác với các thiết bị từ máy tính, điện thoại đến trợ lý kỹ thuật số và ki-ốt.

Hiệu suất của hệ thống giọng nói phụ thuộc nhiều vào khối lượng và sự đa dạng của dữ liệu giọng nói có sẵn cho các mô hình học máy đào tạo. Công nghệ giọng nói ngày nay chủ yếu tập trung vào nhận dạng ngôn ngữ tiếng Anh và không bao gồm nhiều ngôn ngữ, giọng nói và kiểu giọng nói. Khoản đầu tư này sẽ giúp đẩy nhanh sự phát triển của dữ liệu tiếng nói công cộng, thu hút nhiều cộng đồng và tình nguyện viên hơn, đồng thời mở rộng số lượng nhân viên toàn thời gian của dự án.

Hãy để chúng tôi nhắc bạn rằng dự án Common Voice nhằm mục đích tổ chức công việc chung để tích lũy cơ sở dữ liệu về các mẫu giọng nói có tính đến sự đa dạng của giọng nói và phong cách nói. Người dùng được mời nói các cụm từ hiển thị trên màn hình hoặc đánh giá chất lượng dữ liệu do người dùng khác thêm vào. Cơ sở dữ liệu tích lũy với các bản ghi cách phát âm khác nhau của các cụm từ điển hình trong giọng nói của con người có thể được sử dụng mà không bị hạn chế trong các hệ thống học máy và trong các dự án nghiên cứu.

Bộ Common Voice hiện bao gồm các ví dụ phát âm từ hơn 164 người. Khoảng 9 nghìn giờ dữ liệu giọng nói đã được tích lũy bằng 60 ngôn ngữ khác nhau. Bộ dành cho tiếng Nga bao gồm 1412 người tham gia và 111 giờ tài liệu phát biểu, và dành cho tiếng Ukraina - 459 người tham gia và 30 giờ. Để so sánh, hơn 66 nghìn người đã tham gia chuẩn bị tài liệu bằng tiếng Anh, ghi lại 1686 giờ phát biểu đã được xác minh. Các bộ được đề xuất có thể được sử dụng trong các hệ thống máy học để xây dựng các mô hình tổng hợp và nhận dạng giọng nói. Dữ liệu được xuất bản dưới dạng phạm vi công cộng (CC0).

Theo tác giả thư viện nhận dạng giọng nói liên tục Vosk, nhược điểm của bộ Common Voice là chất liệu giọng nói một chiều (ưu tiên nam giới 20-30 tuổi, thiếu chất liệu giọng nói nữ). , trẻ em và người già), sự thiếu đa dạng trong từ điển (lặp lại các cụm từ giống nhau) và việc phân phối các bản ghi âm ở định dạng MP3 bị bóp méo.

Nguồn: opennet.ru

Thêm một lời nhận xét