Odprta koda za Jina Embedding, model za vektorsko predstavitev pomena besedila

Jina ima odprtokodni model strojnega učenja za vektorsko predstavitev besedila, jina-embeddings-v2.0, pod licenco Apache 2. Model vam omogoča pretvorbo poljubnega besedila, vključno z do 8192 znaki, v majhno zaporedje realnih števil, ki tvorijo vektor, ki se primerja z izvornim besedilom in reproducira njegovo semantiko (pomen). Jina Embedding je bil prvi odprti model strojnega učenja, ki je imel enako zmogljivost kot lastniški model vektorizacije besedila iz projekta OpenAI (text-embedding-ada-002), prav tako zmožen obdelave besedila z do 8192 žetoni.

Razdalja med dvema generiranima vektorjema se lahko uporabi za določitev pomenskega odnosa izvornih besedil. V praksi lahko generirane vektorje uporabimo za analizo podobnosti besedil, organizacijo iskanja materialov, povezanih s temo (razvrstitev rezultatov po pomenski bližini), združevanje besedil po pomenu, generiranje priporočil (ponujanje seznama podobnih besedilnih nizov), generiranje priporočil (ponujanje seznama podobnih besedilnih nizov), prepoznati nepravilnosti, odkriti plagiat in razvrstiti teste. Primeri področij uporabe vključujejo uporabo modela za analizo pravnih dokumentov, za poslovno analitiko, v medicinskih raziskavah za obdelavo znanstvenih člankov, v literarni kritiki, za razčlenjevanje finančnih poročil in za izboljšanje kakovosti chatbot obdelave kompleksnih vprašanj.

Za prenos sta na voljo dve različici modela jina-embeddings (osnovna - 0.27 GB in zmanjšana - 0.07 GB), ki je treniran na 400 milijonih parov besedilnih zaporedij v angleščini, ki pokrivajo različna področja znanja. Med treningom so bile uporabljene sekvence velikosti 512 žetonov, ki so bile z metodo ALiBi (Attention with Linear Biases) ekstrapolirane na velikost 8192.

Osnovni model vključuje 137 milijonov parametrov in je zasnovan za uporabo v stacionarnih sistemih z GPU. Pomanjšani model vključuje 33 milijonov parametrov, zagotavlja manjšo natančnost in je namenjen uporabi na mobilnih napravah in sistemih z majhno količino pomnilnika. V bližnji prihodnosti načrtujejo tudi objavo velikega modela, ki bo zajemal 435 milijonov parametrov. V razvoju je tudi večjezična različica modela, ki se trenutno osredotoča na podporo za nemščino in španščino. Vtičnik je bil pripravljen ločeno za uporabo modela jina-embeddings prek kompleta orodij LLM.

Vir: opennet.ru

Dodaj komentar