Отворени изворни код за Јина Ембеддинг, модел за векторско представљање значења текста

Јина је отворила модел машинског учења за векторско представљање текста, јина-ембеддингс-в2.0, под лиценцом Апацхе 2. Модел вам омогућава да конвертујете произвољан текст, укључујући до 8192 карактера, у мали низ реалних бројева који формирају вектор који се пореди са изворним текстом и репродукује његову семантику (значење). Јина Ембеддинг је био први отворени модел машинског учења који је имао исте перформансе као власнички модел векторизације текста из ОпенАИ пројекта (тект-ембеддинг-ада-002), такође способан да обрађује текст са до 8192 токена.

Удаљеност између два генерисана вектора може се користити за утврђивање семантичког односа изворних текстова. У пракси, генерирани вектори се могу користити за анализу сличности текстова, организују потрагу за материјалима који се односе на тему (рангирање резултата семантичке близине), групне текстове значењем, генеришу препоруке (нуде листу сличних текстуалних жица), идентификовати аномалије, открити плагијат и класификовати тестове. Примери подручја коришћења укључују употребу модела за анализу правних докумената, за пословно-аналитику, у медицинском истраживању за обраду научних чланака, у књижевном критици, за анализу финансијских извештаја и за побољшање квалитета квалитета прераде сложених питања Цхатбот-а и за побољшање квалитета прераде сложених питања.

Две верзије модела јина-ембеддингс су доступне за преузимање (основна - 0.27 ГБ и смањена - 0.07 ГБ), обучене на 400 милиона парова текстуалних секвенци на енглеском, које покривају различите области знања. Током обуке коришћене су секвенце величине 512 токена, које су екстраполиране на величину од 8192 методом АЛиБи (Аттентион витх Линеар Биасес).

Основни модел укључује 137 милиона параметара и дизајниран је за употребу на стационарним системима са ГПУ-ом. Смањени модел укључује 33 милиона параметара, пружа мању прецизност и намењен је употреби на мобилним уређајима и системима са малом количином меморије. У блиској будућности планирају да објаве и велики модел који ће покривати 435 милиона параметара. Вишејезична верзија модела је такође у развоју, која се тренутно фокусира на подршку за немачки и шпански језик. Додатак је посебно припремљен за коришћење јина-ембеддингс модела преко ЛЛМ комплета алата.

Извор: опеннет.ру

Додај коментар