Amazon menerbitkan set data untuk memahami pertuturan dalam 51 bahasa

Amazon telah menerbitkan di bawah lesen CC BY 4.0 set data "MASSIVE" (Multibahasa Amazon SLURP untuk Pengisian Slot, Klasifikasi Niat dan Penilaian Pembantu Maya), model untuk sistem pembelajaran mesin dan alatan untuk melatih model anda sendiri yang boleh digunakan untuk memahami maklumat tentang bahasa semula jadi (NLU, Natural Language Understanding). Set ini termasuk lebih daripada sejuta ujaran teks beranotasi dan terperingkat yang disediakan untuk 51 bahasa.

Koleksi SLURP, yang asalnya tersedia untuk bahasa Inggeris, digunakan sebagai rujukan untuk membina set MASSIVE, yang disetempatkan ke dalam 50 bahasa lain menggunakan penterjemah profesional. Teknologi pemahaman bahasa semula jadi (NLU) Alexa mula-mula menukar pertuturan kepada teks, kemudian menggunakan berbilang model NLU pada teks yang menganalisis kehadiran kata kunci untuk menentukan intipati soalan pengguna.

Salah satu matlamat mencipta dan menerbitkan set adalah untuk menyesuaikan pembantu suara untuk memproses maklumat dalam beberapa bahasa sekaligus, serta menggalakkan pembangun pihak ketiga untuk mencipta aplikasi dan perkhidmatan yang memperluaskan keupayaan pembantu suara. Untuk menarik perhatian pembangun, Amazon melancarkan pertandingan untuk mencipta model generik terbaik menggunakan set data yang diterbitkan.

Pada masa ini, pembantu suara hanya menyokong beberapa bahasa dan menggunakan model pembelajaran mesin yang terikat pada bahasa tertentu. Projek MASSIVE bertujuan untuk menghapuskan kelemahan ini dengan mencipta model universal dan sistem pembelajaran mesin yang mampu menghuraikan dan memproses maklumat dalam bahasa yang berbeza.

Sumber: opennet.ru

Tambah komen