Facebook xuất bản mô hình dịch máy hỗ trợ 200 ngôn ngữ

Facebook (bị cấm ở Liên bang Nga) đã công bố các phát triển của dự án NLLB (No Language Left Behind), nhằm tạo ra một mô hình học máy phổ quát để dịch trực tiếp văn bản từ ngôn ngữ này sang ngôn ngữ khác, bỏ qua việc dịch trung gian sang tiếng Anh. Mô hình đề xuất bao gồm hơn 200 ngôn ngữ, bao gồm cả các ngôn ngữ quý hiếm của các dân tộc châu Phi và Úc. Mục tiêu cuối cùng của dự án là cung cấp phương tiện giao tiếp cho mọi người, bất kể ngôn ngữ họ nói.

Mô hình này được cấp phép theo giấy phép Creative Commons BY-NC 4.0, cho phép sao chép, phân phối lại, tùy chỉnh và các tác phẩm phái sinh, miễn là bạn ghi công, duy trì giấy phép và chỉ sử dụng nó cho mục đích phi thương mại. Các công cụ để làm việc với mô hình được cung cấp theo giấy phép MIT. Để kích thích sự phát triển bằng mô hình NLLB, người ta đã quyết định phân bổ 200 nghìn đô la để tài trợ cho các nhà nghiên cứu.

Để đơn giản hóa việc tạo dự án sử dụng mô hình đề xuất, mã ứng dụng dùng để kiểm tra và đánh giá chất lượng mô hình (FLORES-200, NLLB-MD, Toxicity-200), mã đào tạo mô hình và bộ mã hóa dựa trên thư viện LASER3 ( Câu bất khả tri về ngôn ngữ) cũng là nguồn mở. Đại diện). Mô hình cuối cùng được cung cấp với hai phiên bản - đầy đủ và rút gọn. Phiên bản rút gọn yêu cầu ít tài nguyên hơn và phù hợp để thử nghiệm và sử dụng trong các dự án nghiên cứu.

Không giống như các hệ thống dịch dựa trên hệ thống máy học khác, giải pháp của Facebook đáng chú ý ở chỗ nó cung cấp một mô hình chung cho tất cả 200 ngôn ngữ, bao gồm tất cả các ngôn ngữ và không yêu cầu sử dụng các mô hình riêng cho từng ngôn ngữ. Việc dịch được thực hiện trực tiếp từ ngôn ngữ nguồn sang ngôn ngữ đích mà không cần dịch trung gian sang tiếng Anh. Để tạo ra các hệ thống dịch phổ quát, một mô hình LID (Nhận dạng ngôn ngữ) được đề xuất bổ sung, cho phép người ta xác định ngôn ngữ được sử dụng. Những thứ kia. hệ thống có thể tự động nhận dạng thông tin được cung cấp bằng ngôn ngữ nào và dịch thông tin đó sang ngôn ngữ của người dùng.

Bản dịch được hỗ trợ theo mọi hướng, giữa bất kỳ ngôn ngữ nào trong số 200 ngôn ngữ được hỗ trợ. Để khẳng định chất lượng dịch giữa bất kỳ ngôn ngữ nào, bộ kiểm tra tham chiếu FLORES-200 đã được chuẩn bị, cho thấy mô hình NLLB-200 về chất lượng dịch vượt trội trung bình 44% so với các hệ thống nghiên cứu dựa trên máy học được đề xuất trước đó khi sử dụng. Số liệu BLEU so sánh bản dịch máy với bản dịch tiêu chuẩn của con người. Đối với các ngôn ngữ châu Phi hiếm và phương ngữ Ấn Độ, chất lượng vượt trội đạt tới 70%. Có thể đánh giá trực quan chất lượng bản dịch trên trang demo được chuẩn bị đặc biệt.

Nguồn: opennet.ru

Thêm một lời nhận xét