Amazon nerbitake dataset kanggo mangerteni wicara ing 51 basa

Amazon wis nerbitake ing sangisore lisensi CC BY 4.0 set data "MASSIVE" (Multibahasa Amazon SLURP kanggo Pengisian Slot, Klasifikasi Intent, lan Evaluasi Asisten Virtual), model kanggo sistem pembelajaran mesin, lan alat kanggo nglatih model sampeyan dhewe sing bisa digunakake. mangerteni informasi babagan basa alami (NLU, Natural Language Understanding). Set kasebut kalebu luwih saka sejuta tuturan teks sing dianotasi lan diklasifikasikake sing disiapake kanggo 51 basa.

Koleksi SLURP, asline kasedhiya kanggo basa Inggris, digunakake minangka referensi kanggo mbangun set MASSIVE, sing dilokalisasi ing 50 basa liyane nggunakake penerjemah profesional. Teknologi pangerten basa alami Alexa (NLU) pisanan ngowahi wicara dadi teks, banjur ngetrapake macem-macem model NLU menyang teks sing nganalisa ananΓ© tembung kunci kanggo nemtokake inti saka pitakonan pangguna.

Salah sawijining tujuan nggawe lan nerbitake set kasebut yaiku adaptasi asisten swara kanggo ngolah informasi ing sawetara basa sekaligus, uga kanggo nyengkuyung pangembang pihak katelu nggawe aplikasi lan layanan sing nggedhekake kemampuan asisten swara. Kanggo narik kawigaten para pangembang, Amazon ngluncurake kompetisi kanggo nggawe model generik sing paling apik nggunakake dataset sing diterbitake.

Saiki, asisten swara mung ndhukung sawetara basa lan nggunakake model pembelajaran mesin sing ana gandhengane karo basa tartamtu. Proyek MASSIVE nduweni tujuan kanggo ngilangi kekurangan iki kanthi nggawe model universal lan sistem pembelajaran mesin sing bisa ngurai lan ngolah informasi ing macem-macem basa.

Source: opennet.ru

Add a comment