Η Amazon δημοσίευσε ένα σύνολο δεδομένων για την κατανόηση της ομιλίας σε 51 γλώσσες

Η Amazon δημοσίευσε με άδεια CC BY 4.0 το σύνολο δεδομένων "MASSIVE" (Πολυγλωσσικό Amazon SLURP for Slot Filling, Intent Classification and Virtual-assistant Evaluation), μοντέλα για συστήματα μηχανικής μάθησης και εργαλεία για την εκπαίδευση των δικών σας μοντέλων που μπορούν να χρησιμοποιηθούν για κατανοούν πληροφορίες για τη φυσική γλώσσα (NLU, Natural Language Understanding). Το σετ περιλαμβάνει περισσότερες από ένα εκατομμύριο σχολιασμένες και ταξινομημένες εκφράσεις κειμένου που έχουν προετοιμαστεί για 51 γλώσσες.

Η συλλογή SLURP, αρχικά διαθέσιμη στα αγγλικά, χρησιμοποιήθηκε ως αναφορά για τη δημιουργία του συνόλου MASSIVE, το οποίο μεταφράστηκε σε 50 άλλες γλώσσες χρησιμοποιώντας επαγγελματίες μεταφραστές. Η τεχνολογία κατανόησης φυσικής γλώσσας (NLU) της Alexa μετατρέπει πρώτα την ομιλία σε κείμενο και, στη συνέχεια, εφαρμόζει πολλαπλά μοντέλα NLU στο κείμενο που αναλύουν την παρουσία λέξεων-κλειδιών για να προσδιορίσουν την ουσία της ερώτησης του χρήστη.

Ένας από τους στόχους της δημιουργίας και της δημοσίευσης του συνόλου είναι η προσαρμογή των φωνητικών βοηθών για επεξεργασία πληροφοριών σε πολλές γλώσσες ταυτόχρονα, καθώς και η ενθάρρυνση τρίτων προγραμματιστών να δημιουργήσουν εφαρμογές και υπηρεσίες που επεκτείνουν τις δυνατότητες των φωνητικών βοηθών. Για να προσελκύσει την προσοχή των προγραμματιστών, η Amazon ξεκίνησε έναν διαγωνισμό για τη δημιουργία του καλύτερου γενικού μοντέλου χρησιμοποιώντας ένα δημοσιευμένο σύνολο δεδομένων.

Επί του παρόντος, οι βοηθοί φωνής υποστηρίζουν μόνο λίγες γλώσσες και χρησιμοποιούν μοντέλα μηχανικής εκμάθησης που συνδέονται με μια συγκεκριμένη γλώσσα. Το έργο MASSIVE στοχεύει να εξαλείψει αυτό το μειονέκτημα δημιουργώντας καθολικά μοντέλα και συστήματα μηχανικής μάθησης ικανά να αναλύουν και να επεξεργάζονται πληροφορίες σε διαφορετικές γλώσσες.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο