Amazon publikoi një grup të dhënash për të kuptuar fjalimin në 51 gjuhë

Amazon ka publikuar nën një licencë CC BY 4.0 grupin e të dhënave "MASSIVE" (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-assistant Evaluation), modelet për sistemet e mësimit të makinerive dhe mjetet për trajnimin e modeleve tuaja që mund të përdoren për të kuptojnë informacionin mbi gjuhën natyrore (NLU, Kuptimi i gjuhës natyrore). Kompleti përfshin më shumë se një milion thënie tekstesh të shënuara dhe të klasifikuara të përgatitura për 51 gjuhë.

Koleksioni SLURP, fillimisht i disponueshëm për anglisht, u përdor si referencë për ndërtimin e grupit MASSIVE, i cili u lokalizua në 50 gjuhë të tjera duke përdorur përkthyes profesionistë. Teknologjia e të kuptuarit të gjuhës natyrore (NLU) të Alexa-s fillimisht konverton fjalimin në tekst, më pas aplikon modele të shumta NLU në tekst që analizojnë praninë e fjalëve kyçe për të përcaktuar thelbin e pyetjes së përdoruesit.

Një nga qëllimet e krijimit dhe publikimit të grupit është përshtatja e asistentëve zanorë për të përpunuar informacione në disa gjuhë në të njëjtën kohë, si dhe për të inkurajuar zhvilluesit e palëve të treta të krijojnë aplikacione dhe shërbime që zgjerojnë aftësitë e asistentëve zanorë. Për të tërhequr vëmendjen e zhvilluesve, Amazon filloi një konkurs për të krijuar modelin më të mirë gjenerik duke përdorur një grup të dhënash të publikuar.

Aktualisht, asistentët zanorë mbështesin vetëm disa gjuhë dhe përdorin modele të mësimit të makinerive të lidhura me një gjuhë specifike. Projekti MASSIVE synon të eliminojë këtë mangësi duke krijuar modele universale dhe sisteme të mësimit të makinerive të afta të analizojnë dhe përpunojnë informacione në gjuhë të ndryshme.

Burimi: opennet.ru

Shto një koment