Amazon апублікаваў набор дадзеных для разумення гаворкі на 51 мове

Кампанія Amazon апублікавала пад ліцэнзіяй CC BY 4.0 набор дадзеных "MASSIVE", мадэлі для сістэм машыннага навучання і інструментарый для трэніроўкі ўласных мадэляў, якія можна выкарыстоўваць для разумення інфармацыі на натуральнай мове (NLU, Natural Language Understanding). Набор уключае больш за мільён анатаваных і класіфікаваных тэкставых выказванняў, падрыхтаваных для 51 мовы.

У якасці эталона для пабудовы набору MASSIVE была выкарыстана калекцыя SLURP, першапачаткова даступная для англійскай мовы, якая была лакалізавана на 50 іншых моў з прыцягненнем прафесійных перакладчыкаў. Ужывальная ў галасавым памагатым Alexa тэхналогія разумення інфармацыі на натуральнай мове (NLU) спачатку пераўтворыць гаворка ў тэкст, пасля чаго ўжывае да тэксту некалькі NLU-мадэляў, якія аналізуюць наяўнасць ключавых слоў для вызначэння сутнасці зададзенага карыстачом пытання.

Адной з мэт стварэння і публікацыі набору з'яўляецца адаптацыя галасавых памочнікаў для апрацоўкі інфармацыі адразу на некалькіх мовах, а таксама стымуляванне іншых распрацоўшчыкаў да стварэння прыкладанняў і сэрвісаў, якія пашыраюць магчымасці галасавых памочнікаў. Каб прыцягнуць увагу распрацоўшчыкаў Amazon заснаваў конкурс па стварэнні лепшай універсальнай мадэлі, якая выкарыстоўвае апублікаваны набор дадзеных.

У цяперашні час галасавыя памочнікі падтрымліваюць толькі некалькі моў і прымяняе мадэлі машыннага навучання, прывязаныя да канкрэтнай мовы. Праект MASSIVE накіраваны на ўхіленне гэтага недахопу шляхам стварэння ўніверсальных мадэляў і сістэм машыннага навучання, здольных разбіраць і апрацоўваць інфармацыю на розных мовах.

Крыніца: opennet.ru

Дадаць каментар