Amazon a publicat un set de date pentru înțelegerea vorbirii în 51 de limbi

Amazon a publicat sub o licență CC BY 4.0 setul de date „MASSIVE” (Amazon SLURP multilingv pentru umplerea sloturilor, clasificarea intențiilor și evaluarea asistentului virtual), modele pentru sistemele de învățare automată și instrumente pentru antrenarea propriilor modele care pot fi utilizate pentru înțelegeți informații despre limbajul natural (NLU, Natural Language Understanding). Setul include mai mult de un milion de enunțuri text adnotate și clasificate, pregătite pentru 51 de limbi.

Colecția SLURP, disponibilă inițial pentru limba engleză, a fost folosită ca referință pentru construirea setului MASSIVE, care a fost localizat în alte 50 de limbi folosind traducători profesioniști. Tehnologia Alexa de înțelegere a limbajului natural (NLU) convertește mai întâi vorbirea în text, apoi aplică mai multe modele NLU textului care analizează prezența cuvintelor cheie pentru a determina esența întrebării utilizatorului.

Unul dintre obiectivele creării și publicării setului este de a adapta asistenții vocali pentru a procesa informații în mai multe limbi simultan, precum și de a încuraja dezvoltatorii terți să creeze aplicații și servicii care extind capacitățile asistenților vocali. Pentru a atrage atenția dezvoltatorilor, Amazon a lansat un concurs pentru a crea cel mai bun model generic folosind un set de date publicat.

În prezent, asistenții vocali acceptă doar câteva limbi și folosesc modele de învățare automată legate de o anumită limbă. Proiectul MASSIVE își propune să elimine acest neajuns prin crearea de modele universale și sisteme de învățare automată capabile să analizeze și să proceseze informații în diferite limbi.

Sursa: opennet.ru

Adauga un comentariu