Amazon gaf út gagnasafn til að skilja tal á 51 tungumáli

Amazon hefur gefið út samkvæmt CC BY 4.0 leyfi „MASSIVE“ (Multilingual Amazon SLURP for Slot Filling, Intent Classification, and Virtual-assistant Evaluation) gagnasafnið, líkön fyrir vélanámskerfi og verkfæri til að þjálfa eigin líkön sem hægt er að nota til að skilja upplýsingar um náttúrumál (NLU, Natural Language Understanding). Settið inniheldur meira en milljón athugasemda og flokkaða texta sem unnin eru fyrir 51 tungumál.

SLURP safnið, sem upphaflega var fáanlegt fyrir ensku, var notað sem viðmið til að byggja upp MASSIVE settið, sem var staðfært á 50 önnur tungumál með því að nota faglega þýðendur. Náttúruleg tungumálaskilningur (NLU) tækni Alexa breytir fyrst tali í texta, síðan beitir mörgum NLU líkönum á textann sem greina tilvist leitarorða til að ákvarða kjarna spurningar notandans.

Eitt af markmiðum með því að búa til og gefa út settið er að laga raddaðstoðarmenn til að vinna úr upplýsingum á nokkrum tungumálum í einu, auk þess að hvetja þriðja aðila forritara til að búa til forrit og þjónustu sem auka getu raddaðstoðarmanna. Til að vekja athygli þróunaraðila hóf Amazon samkeppni til að búa til besta almenna líkanið með því að nota útgefið gagnasafn.

Sem stendur styðja raddaðstoðarmenn aðeins nokkur tungumál og nota vélanámslíkön sem eru bundin við ákveðið tungumál. MASSIVE verkefnið miðar að því að útrýma þessum galla með því að búa til alhliða líkön og vélanámskerfi sem geta greint og unnið úr upplýsingum á mismunandi tungumálum.

Heimild: opennet.ru

Bæta við athugasemd