Opinn frumkóði fyrir Jina Embedding, líkan fyrir vektorframsetningu á merkingu texta

Jina hefur útvegað opið vélnámslíkan fyrir framsetningu vektortexta, jina-embeddings-v2.0, undir Apache 2 leyfinu. Líkanið gerir þér kleift að umbreyta handahófskenndum texta, þar á meðal allt að 8192 stöfum, í litla röð rauntalna sem mynda vektor sem er borinn saman við frumtextann og endurskapar merkingarfræði hans (merkingu). Jina Embedding var fyrsta opna vélanámslíkanið sem hafði sömu frammistöðu og sérsniðna textavigtunarlíkanið frá OpenAI verkefninu (text-embedding-ada-002), einnig fær um að vinna texta með allt að 8192 táknum.

Fjarlægðin milli tveggja myndaðra vektora er hægt að nota til að ákvarða merkingarfræðilegt samband frumtextanna. Í reynd er hægt að nota mynduðu vektorana til að greina líkindi texta, skipuleggja leit að efni sem tengist efninu (raða niðurstöðum eftir merkingarlegri nálægð), flokka texta eftir merkingu, búa til tillögur (bjóða upp lista yfir svipaða textastrengi), greina frávik, greina ritstuld og flokka próf. Sem dæmi um notkunarsvið má nefna notkun líkansins við greiningu lagaskjala, til viðskiptagreininga, við læknisfræðilegar rannsóknir við úrvinnslu vísindagreina, við bókmenntagagnrýni, við þáttun fjárhagsskýrslna og til að bæta gæði spjallbotnavinnslu flókinna mála.

Tvær útgáfur af jina-embeddings líkaninu eru fáanlegar til niðurhals (undirstöðu - 0.27 GB og minni - 0.07 GB), þjálfaðar á 400 milljón pörum af textaröðum á ensku, sem ná yfir ýmis þekkingarsvið. Við þjálfun voru notaðar raðir með stærðina 512 tákn, sem voru framreiknaðar í stærðina 8192 með því að nota ALiBi (Attention with Linear Biases) aðferðina.

Grunnlíkanið inniheldur 137 milljónir breytur og er hannað til notkunar á kyrrstæðum kerfum með GPU. Minnkaða líkanið inniheldur 33 milljónir breytur, veitir minni nákvæmni og er ætlað að nota í farsímum og kerfum með lítið minni. Í náinni framtíð ætla þeir einnig að gefa út stórt líkan sem mun ná yfir 435 milljón breytur. Fjöltyngd útgáfa af líkaninu er einnig í þróun, sem nú er lögð áhersla á stuðning við þýsku og spænsku. Viðbót hefur verið útbúin sérstaklega til að nota jina-embeddings líkanið í gegnum LLM verkfærakistuna.

Heimild: opennet.ru

Bæta við athugasemd