Рамзи кушодаасос барои Jina Embedding, модели муаррифии вектории маънои матн

Jina як модели омӯзиши мошиниро барои муаррифии матни векторӣ, jina-embeddings-v2.0, зери литсензияи Apache 2 кушодааст. Модел ба шумо имкон медиҳад, ки матни худсарона, аз ҷумла то 8192 аломатро ба пайдарпайии хурди ададҳои воқеӣ табдил диҳед, ки вектореро ташкил медиҳанд, ки бо матни сарчашма муқоиса карда, семантикаи (маънои) онро такрор мекунанд. Jina Embedding аввалин модели омӯзиши мошини кушод буд, ки дорои якхела бо модели векторизатсияи матнии хусусии лоиҳаи OpenAI (text-embedding-ada-002), инчунин қодир аст коркарди матн бо то 8192 токен.

Масофаи байни ду вектори тавлидшуда метавонад барои муайян кардани робитаи семантикии матнҳои сарчашма истифода шавад. Дар амал, векторҳои тавлидшуда метавонанд барои таҳлили шабоҳати матнҳо, ташкили ҷустуҷӯи маводҳои марбут ба мавзӯъ (баҳодиҳии натиҷаҳо аз рӯи наздикии семантикӣ), гурӯҳбандӣ кардани матнҳо аз рӯи маъно, тавлиди тавсияҳо (пешниҳод кардани рӯйхати сатрҳои матнии шабеҳ), аномалияҳоро муайян кунед, плагиатро ошкор кунед ва санҷишҳоро тасниф кунед. Намунаҳои соҳаҳои истифода истифодаи моделро барои таҳлили ҳуҷҷатҳои ҳуқуқӣ, барои таҳлили тиҷорат, дар тадқиқоти тиббӣ барои коркарди мақолаҳои илмӣ, дар танқиди адабӣ, таҳлили ҳисоботи молиявӣ ва баланд бардоштани сифати коркарди чатботи масъалаҳои мураккаб дар бар мегиранд.

Ду версияи модели jina-embeddings барои зеркашӣ дастрас аст (асосӣ - 0.27 ГБ ва кам - 0.07 ГБ), дар 400 миллион ҷуфт пайдарпаии матн бо забони англисӣ, ки соҳаҳои гуногуни донишро фаро мегиранд, таълим дода шудаанд. Дар давоми омӯзиш, пайдарпаии бо андозаи 512 нишонаҳо истифода шуданд, ки бо истифода аз усули ALiBi (Диққат бо ғаразҳои хатӣ) ба андозаи 8192 экстраполятсия карда шуданд.

Модели асосӣ 137 миллион параметрҳоро дар бар мегирад ва барои истифода дар системаҳои статсионарӣ бо GPU пешбинӣ шудааст. Модели коҳишёфта 33 миллион параметрро дар бар мегирад, дақиқии камтарро таъмин мекунад ва барои истифода дар дастгоҳҳои мобилӣ ва системаҳои дорои миқдори ками хотира нигаронида шудааст. Дар ояндаи наздик онҳо инчунин нақша доранд, ки модели калонеро нашр кунанд, ки 435 миллион параметрро дар бар мегирад. Варианти бисёрзабонии модел низ дар ҳоли таҳия аст, ки айни замон ба дастгирии забонҳои олмонӣ ва испанӣ тамаркуз мекунад. Плагин барои истифодаи модели jina-embeddings тавассути асбоби LLM алоҳида омода карда шудааст.

Манбаъ: opennet.ru

Илова Эзоҳ