Amazon publikigis datumaron por kompreni paroladon en 51 lingvoj

Amazon publikigis sub permesilo CC BY 4.0 la datumararon "MASSIVE" (Multlingva Amazon SLURP por Slot Plenigo, Intenca Klasifiko kaj Virtuala-asistanto-Taksado), modelojn por maŝinlernado-sistemoj kaj ilojn por trejni viajn proprajn modelojn, kiuj povas esti uzataj por kompreni informojn pri natura lingvo (NLU, Natural Language Understanding). La aro inkluzivas pli ol milionon da komentitaj kaj klasifikitaj tekstaj eldiroj preparitaj por 51 lingvoj.

La kolekto SLURP, origine disponebla por la angla, estis uzata kiel referenco por konstrui la MASIVA aro, kiu estis lokalizita en 50 aliajn lingvojn uzante profesiajn tradukistojn. La teknologio de naturlingva kompreno (NLU) de Alexa unue konvertas paroladon en tekston, poste aplikas plurajn NLU-modelojn al la teksto, kiuj analizas la ĉeeston de ŝlosilvortoj por determini la esencon de la demando de la uzanto.

Unu el la celoj de kreado kaj publikigado de la aro estas adapti voĉajn asistantojn por prilabori informojn en pluraj lingvoj samtempe, kaj ankaŭ instigi triajn programistojn krei aplikojn kaj servojn, kiuj vastigas la kapablojn de voĉaj asistantoj. Por altiri la atenton de programistoj, Amazon lanĉis konkurson por krei la plej bonan senmarkan modelon uzante publikigitan datumaron.

Nuntempe, voĉaj asistantoj subtenas nur kelkajn lingvojn kaj uzas maŝinlernajn modelojn ligitajn al specifa lingvo. La projekto MASSIVE celas forigi ĉi tiun mankon kreante universalajn modelojn kaj maŝinlernajn sistemojn kapablajn analizi kaj prilabori informojn en malsamaj lingvoj.

fonto: opennet.ru

Aldoni komenton