Jina Embedding үчүн ачык булак коду, тексттин маанисин вектордук көрсөтүү модели

Jina Apache 2.0 лицензиясынын астында jina-embeddings-v2 вектордук текстти көрсөтүү үчүн машина үйрөнүү моделин ачык булактан чыгарды. Модель 8192 белгиге чейинки ыктыярдуу текстти баштапкы текст менен салыштырылган векторду түзгөн жана анын семантикасын (маанисин) кайра чыгарган реалдуу сандардын кичинекей ырааттуулугуна айландыруу мүмкүнчүлүгүн берет. Jina Embedding OpenAI долбоорунун (text-embedding-ada-002) проприетардык текст векторизация модели менен бирдей өндүрүмдүүлүккө ээ болгон биринчи ачык машина үйрөнүү модели болгон, ошондой эле 8192 токенге чейин текстти иштетүүгө жөндөмдүү.

Түзүлгөн эки вектордун ортосундагы аралык баштапкы тексттердин семантикалык байланышын аныктоо үчүн колдонулушу мүмкүн. Практикада түзүлгөн векторлор тексттердин окшоштугун талдоо, темага тиешелүү материалдарды издөөнү уюштуруу (натыйжаларды семантикалык жакындыгы боюнча рейтинг), тексттерди мааниси боюнча топтоо, сунуштарды түзүү (окшош текст саптарынын тизмесин сунуштоо) үчүн колдонулушу мүмкүн. аномалияларды аныктоо, плагиатты аныктоо жана тесттерди классификациялоо. Колдонуу чөйрөлөрүнүн мисалдарына укуктук документтерди талдоо, бизнес-аналитика, илимий макалаларды иштетүү үчүн медициналык изилдөө, адабий сын, каржылык отчетторду талдоо жана татаал маселелерди чатбот менен иштетүү сапатын жогорулатуу үчүн моделди колдонуу кирет.

jina-embeddings моделинин эки версиясын жүктөп алуу үчүн жеткиликтүү (негизги - 0.27 ГБ жана кыскартылган - 0.07 ГБ), билимдин ар кандай тармактарын камтыган англис тилиндеги 400 миллион жуп текст ырааттуулугу боюнча үйрөтүлгөн. Тренингдин жүрүшүндө ALiBi (Көңүл буруу менен Linear Biases) ыкмасын колдонуу менен 512 өлчөмүнө экстраполяцияланган 8192 токен өлчөмүндөгү ырааттуулуктар колдонулган.

Негизги модель 137 миллион параметрлерди камтыйт жана GPU менен стационардык системаларда колдонуу үчүн иштелип чыккан. Кыскартылган модель 33 миллион параметрлерди камтыйт, азыраак тактыкты камсыз кылат жана мобилдик түзүлүштөрдө жана эстутумунун аз көлөмү бар системаларда колдонууга багытталган. Жакынкы келечекте алар 435 миллион параметрди камтыган чоң моделди чыгарууну да пландаштырууда. Моделдин көп тилдүү версиясы да иштелип чыгууда, учурда немис жана испан тилдерин колдоого басым жасалууда. LLM инструменттери аркылуу jina-embeddings моделин колдонуу үчүн плагин өзүнчө даярдалган.

Source: opennet.ru

Комментарий кошуу