Jina Embedding-ի բաց կոդ՝ տեքստի իմաստի վեկտորային ներկայացման մոդել

Jina-ն բաց կոդով մեքենայական ուսուցման մոդել է ստեղծել վեկտորային տեքստի ներկայացման համար՝ jina-embeddings-v2.0, Apache 2 լիցենզիայի ներքո: Մոդելը թույլ է տալիս կամայական տեքստը, ներառյալ մինչև 8192 նիշ, վերածել իրական թվերի փոքր հաջորդականության, որոնք ձևավորում են վեկտոր, որը համեմատվում է սկզբնական տեքստի հետ և վերարտադրում է դրա իմաստաբանությունը (իմաստը): Ջինա Էմբեդդինգը բաց մեքենայական ուսուցման առաջին մոդելն էր, որն ուներ նույն արդյունավետությունը, ինչ OpenAI նախագծի սեփական տեքստի վեկտորացման մոդելը (text-embedding-ada-002), որը կարող էր նաև մշակել տեքստ մինչև 8192 նշանով:

Երկու առաջացած վեկտորների միջև հեռավորությունը կարող է օգտագործվել սկզբնաղբյուր տեքստերի իմաստային հարաբերությունները որոշելու համար: Գործնականում գեներացված վեկտորները կարող են օգտագործվել տեքստերի նմանությունը վերլուծելու, թեմային վերաբերող նյութերի որոնում կազմակերպելու համար (արդյունքների դասակարգում ըստ իմաստային հարևանության), տեքստերը խմբավորել ըստ նշանակության, առաջարկություններ ստեղծելու (նման տեքստային տողերի ցուցակ առաջարկելու համար), բացահայտել անոմալիաները, հայտնաբերել գրագողությունը և դասակարգել թեստերը: Օգտագործման ոլորտների օրինակները ներառում են մոդելի օգտագործումը իրավական փաստաթղթերի վերլուծության, բիզնեսի վերլուծության համար, բժշկական հետազոտություններում՝ գիտական ​​հոդվածների մշակման համար, գրական քննադատության, ֆինանսական հաշվետվությունների վերլուծության և բարդ խնդիրների չաթբոտի մշակման որակի բարելավման համար:

Ներբեռնման համար հասանելի է jina-embeddings մոդելի երկու տարբերակ (հիմնական՝ 0.27 ԳԲ և կրճատված՝ 0.07 ԳԲ), վերապատրաստված անգլերեն լեզվով 400 միլիոն զույգ տեքստային հաջորդականությունների վրա՝ ընդգրկելով գիտելիքների տարբեր ոլորտներ: Թրեյնինգի ընթացքում օգտագործվել են 512 նշանի չափով հաջորդականություններ, որոնք ALiBi (Ուշադրություն գծային կողմնակալություններով) մեթոդով էքստրապոլացվել են մինչև 8192 չափի:

Հիմնական մոդելը ներառում է 137 միլիոն պարամետր և նախատեսված է GPU-ով ստացիոնար համակարգերում օգտագործելու համար: Կրճատված մոդելը ներառում է 33 միլիոն պարամետր, ապահովում է ավելի քիչ ճշգրտություն և ուղղված է փոքր քանակությամբ հիշողությամբ շարժական սարքերի և համակարգերի օգտագործմանը: Մոտ ապագայում նախատեսում են նաև հրապարակել մեծ մոդել, որը կընդգրկի 435 միլիոն պարամետր։ Մոդելի բազմալեզու տարբերակը նույնպես մշակման փուլում է, որն այժմ կենտրոնացած է գերմաներենի և իսպաներենի աջակցության վրա: LLM գործիքակազմի միջոցով jina-embeddings մոդելն օգտագործելու համար առանձին պատրաստվել է հավելված:

Source: opennet.ru

Добавить комментарий