Amazon menerbitkan kumpulan data untuk memahami ucapan dalam 51 bahasa

Amazon telah menerbitkan di bawah lisensi CC BY 4.0 kumpulan data "MASSIVE" (Amazon SLURP Multibahasa untuk Pengisian Slot, Klasifikasi Maksud, dan Evaluasi Asisten Virtual), model untuk sistem pembelajaran mesin, dan alat untuk melatih model Anda sendiri yang dapat digunakan untuk memahami informasi tentang bahasa alami (NLU, Natural Language Understanding). Kumpulan ini mencakup lebih dari satu juta ucapan teks beranotasi dan rahasia yang disiapkan untuk 51 bahasa.

Koleksi SLURP, awalnya tersedia dalam bahasa Inggris, digunakan sebagai referensi untuk membangun set MASSIVE, yang dilokalkan ke dalam 50 bahasa lain menggunakan penerjemah profesional. Teknologi pemahaman bahasa alami (NLU) Alexa pertama-tama mengubah ucapan menjadi teks, kemudian menerapkan beberapa model NLU ke teks yang menganalisis keberadaan kata kunci untuk menentukan inti pertanyaan pengguna.

Salah satu tujuan pembuatan dan penerbitan set ini adalah untuk mengadaptasi asisten suara untuk memproses informasi dalam beberapa bahasa sekaligus, serta untuk mendorong pengembang pihak ketiga untuk membuat aplikasi dan layanan yang memperluas kemampuan asisten suara. Untuk menarik perhatian pengembang, Amazon meluncurkan kompetisi untuk menciptakan model generik terbaik menggunakan kumpulan data yang dipublikasikan.

Saat ini, asisten suara hanya mendukung beberapa bahasa dan menggunakan model pembelajaran mesin yang terikat pada bahasa tertentu. Proyek MASSIVE bertujuan untuk menghilangkan kekurangan ini dengan menciptakan model universal dan sistem pembelajaran mesin yang mampu menguraikan dan memproses informasi dalam berbagai bahasa.

Sumber: opennet.ru

Tambah komentar