Amazon ha pubblicato un set di dati per comprendere il parlato in 51 lingue

Amazon ha pubblicato con licenza CC BY 4.0 il set di dati "MASSIVE" (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-assistant Evaluation), modelli per sistemi di machine learning e strumenti per l'addestramento dei propri modelli che possono essere utilizzati per comprendere le informazioni sul linguaggio naturale (NLU, Natural Language Understanding). Il set comprende più di un milione di espressioni di testo annotate e classificate preparate per 51 lingue.

La raccolta SLURP, originariamente disponibile per l'inglese, è stata utilizzata come riferimento per la costruzione del set MASSIVE, che è stato localizzato in altre 50 lingue utilizzando traduttori professionisti. La tecnologia di comprensione del linguaggio naturale (NLU) di Alexa converte innanzitutto il parlato in testo, quindi applica più modelli NLU al testo che analizzano la presenza di parole chiave per determinare l'essenza della domanda dell'utente.

Uno degli obiettivi della creazione e pubblicazione del set è adattare gli assistenti vocali per elaborare le informazioni in più lingue contemporaneamente, nonché incoraggiare gli sviluppatori di terze parti a creare applicazioni e servizi che espandano le capacità degli assistenti vocali. Per attirare l'attenzione degli sviluppatori, Amazon ha lanciato un concorso per creare il miglior modello generico utilizzando un set di dati pubblicato.

Attualmente gli assistenti vocali supportano solo poche lingue e utilizzano modelli di machine learning legati a una lingua specifica. Il progetto MASSIVE mira a eliminare questa lacuna creando modelli universali e sistemi di apprendimento automatico in grado di analizzare ed elaborare informazioni in diverse lingue.

Fonte: opennet.ru

Aggiungi un commento