Åpen kildekode for Jina Embedding, en modell for vektorrepresentasjon av tekstbetydning

Jina har åpnet en maskinlæringsmodell for vektortekstrepresentasjon, jina-embeddings-v2.0, under Apache 2-lisensen. Modellen lar deg konvertere vilkårlig tekst, inkludert opptil 8192 tegn, til en liten sekvens av reelle tall som danner en vektor som sammenlignes med kildeteksten og gjengir dens semantikk (betydning). Jina Embedding var den første åpne maskinlæringsmodellen som hadde samme ytelse som den proprietære tekstvektoriseringsmodellen fra OpenAI-prosjektet (text-embedding-ada-002), også i stand til å behandle tekst med opptil 8192 tokens.

Avstanden mellom to genererte vektorer kan brukes til å bestemme det semantiske forholdet til kildetekstene. I praksis kan de genererte vektorene brukes til å analysere likheten mellom tekster, organisere et søk etter materialer relatert til emnet (rangere resultater etter semantisk nærhet), gruppere tekster etter mening, generere anbefalinger (tilby en liste med lignende tekststrenger), identifisere anomalier, oppdage plagiat og klassifisere tester. Eksempler på bruksområder inkluderer bruk av modellen for analyse av juridiske dokumenter, for forretningsanalyse, i medisinsk forskning for behandling av vitenskapelige artikler, i litteraturkritikk, for analysering av økonomiske rapporter og for å forbedre kvaliteten på chatbot-behandling av komplekse problemstillinger.

To versjoner av jina-embeddings-modellen er tilgjengelig for nedlasting (grunnleggende - 0.27 GB og redusert - 0.07 GB), trent på 400 millioner par tekstsekvenser på engelsk, som dekker ulike kunnskapsfelt. Under trening ble det brukt sekvenser med en størrelse på 512 tokens, som ble ekstrapolert til en størrelse på 8192 ved bruk av ALiBi-metoden (Attention with Linear Biases).

Grunnmodellen inkluderer 137 millioner parametere og er designet for bruk på stasjonære systemer med en GPU. Den reduserte modellen inkluderer 33 millioner parametere, gir mindre nøyaktighet og er rettet mot bruk på mobile enheter og systemer med liten mengde minne. I nær fremtid planlegger de også å publisere en stor modell som skal dekke 435 millioner parametere. En flerspråklig versjon av modellen er også under utvikling, med fokus på støtte for tysk og spansk. En plugin er utarbeidet separat for bruk av jina-embeddings-modellen gjennom LLM-verktøysettet.

Kilde: opennet.ru

Legg til en kommentar