Amazon đã xuất bản bộ dữ liệu để hiểu lời nói bằng 51 ngôn ngữ

Amazon đã xuất bản theo giấy phép CC BY 4.0 bộ dữ liệu "MASSIVE" (Amazon SLURP đa ngôn ngữ để điền vào vị trí, phân loại ý định và đánh giá trợ lý ảo), các mô hình cho hệ thống máy học và các công cụ để đào tạo các mô hình của riêng bạn có thể được sử dụng để hiểu thông tin về ngôn ngữ tự nhiên (NLU, Natural Ngôn ngữ Hiểu). Bộ này bao gồm hơn một triệu văn bản được chú thích và phân loại được chuẩn bị cho 51 ngôn ngữ.

Bộ sưu tập SLURP, ban đầu có sẵn bằng tiếng Anh, được sử dụng làm tài liệu tham khảo để xây dựng bộ MASSIVE, được bản địa hóa sang 50 ngôn ngữ khác bằng cách sử dụng các dịch giả chuyên nghiệp. Công nghệ hiểu ngôn ngữ tự nhiên (NLU) của Alexa trước tiên chuyển đổi lời nói thành văn bản, sau đó áp dụng nhiều mô hình NLU cho văn bản để phân tích sự hiện diện của từ khóa nhằm xác định nội dung câu hỏi của người dùng.

Một trong những mục tiêu của việc tạo và xuất bản bộ này là điều chỉnh trợ lý giọng nói để xử lý thông tin bằng nhiều ngôn ngữ cùng một lúc, cũng như khuyến khích các nhà phát triển bên thứ ba tạo ra các ứng dụng và dịch vụ mở rộng khả năng của trợ lý giọng nói. Để thu hút sự chú ý của các nhà phát triển, Amazon đã phát động một cuộc thi nhằm tạo ra mô hình chung tốt nhất bằng cách sử dụng tập dữ liệu đã xuất bản.

Hiện tại, trợ lý giọng nói chỉ hỗ trợ một số ngôn ngữ và sử dụng các mô hình học máy gắn liền với một ngôn ngữ cụ thể. Dự án MASSIVE nhằm mục đích loại bỏ nhược điểm này bằng cách tạo ra các mô hình phổ quát và hệ thống máy học có khả năng phân tích cú pháp và xử lý thông tin bằng các ngôn ngữ khác nhau.

Nguồn: opennet.ru

Thêm một lời nhận xét