Адкрыты код Jina Embedding, мадэлі для вектарнага ўяўлення сэнсу тэксту

Кампанія Jina адкрыла пад ліцэнзіяй Apache 2.0 мадэль машыннага навучання для вектарнага падання тэксту – jina-embeddings-v2. Мадэль дазваляе пераўтварыць адвольны тэкст, улучальны да 8192 знакаў, у невялікую паслядоўнасць рэчавых лікаў, утваральных вектар, супастаўлены з зыходным тэкстам і які прайгравае яго семантыку (сэнс). Jina Embedding стала першай адкрытай мадэллю машыннага навучання, якая валодае характарыстыкамі, якія не саступаюць прапрыетарнай мадэлі вектарызацыі тэксту ад праекта OpenAI (text-embedding-ada-002), таксама здольнай апрацоўваць тэксты, якія налічваюць да 8192 токенаў.

Адлегласць паміж двума сфармаванымі вектарамі можна выкарыстоўваць для вызначэння сэнсавай узаемасувязі зыходных тэкстаў. На практыцы сфармаваныя вектары могуць прымяняцца для аналізу падобнасці тэкстаў, арганізацыі пошуку блізкіх па тэматыцы матэрыялаў (ранжыраванне вынікаў па семантычнай блізкасці), групоўкі тэкстаў па сэнсе, фарміравання рэкамендацый (прапанова спісу падобных тэкставых радкоў), выяўлення анамалій, вызначэння плагіяту і класіфікацыі тэстаў. У якасці прыкладаў абласцей выкарыстання згадваецца задзейнічанне мадэлі для аналізу юрыдычных дакументаў, для бізнес-аналітыкі, у медыцынскіх даследаваннях для апрацоўкі навуковых артыкулаў, у літаратурнай крытыцы, для разбору фінансавых справаздач і для павышэння якасці апрацоўкі чат-ботамі складаных пытанняў.

Для загрузкі даступныя два варыянты мадэлі jina-embeddings (базавая – 0.27 ГБ і скарочаная – 0.07 ГБ), навучаныя на 400 мільёнах пар тэкставых паслядоўнасцяў на англійскай мове, якія ахопліваюць розныя вобласці ведаў. Пры навучанні выкарыстоўваліся паслядоўнасці, памерам 512 токенаў, якія былі экстрапаляваць да памеру 8192 пры дапамозе метаду ALiBi (Attention with Linear Biases).

Базавая мадэль уключае ў сябе 137 млн ​​параметраў і разлічана на выкарыстанні на стацыянарных сістэмах з GPU. Скарочаная мадэль уключае 33 млн. параметраў, забяспечвае меншую дакладнасць і нацэлена на прымяненне на мабільных прыладах і на сістэмах з невялікім аб'ёмам памяці. У бліжэйшы час таксама плануюць апублікаваць буйную мадэль, якая будзе ахопліваць 435 параметраў. У распрацоўцы таксама знаходзіцца шматмоўны варыянт мадэлі, які ў цяперашні час засяроджаны на падтрымцы нямецкай і іспанскай моў. Асобна падрыхтаваны плягін для выкарыстання мадэлі jina-embeddings праз інструментарый LLM.

Крыніца: opennet.ru

Дадаць каментар