Öppen källkod för Jina Embedding, en modell för vektorrepresentation av textens betydelse

Jina har öppnat en maskininlärningsmodell för vektortextrepresentation, jina-embeddings-v2.0, under Apache 2-licensen. Modellen låter dig konvertera godtycklig text, inklusive upp till 8192 tecken, till en liten sekvens av reella tal som bildar en vektor som jämförs med källtexten och återger dess semantik (betydelse). Jina Embedding var den första modellen för öppen maskininlärning som hade samma prestanda som den proprietära textvektoriseringsmodellen från OpenAI-projektet (text-embedding-ada-002), som också kan bearbeta text med upp till 8192 tokens.

Avståndet mellan två genererade vektorer kan användas för att bestämma källtexternas semantiska samband. I praktiken kan de genererade vektorerna användas för att analysera likheten mellan texter, organisera en sökning efter material relaterat till ämnet (ranka resultat efter semantisk närhet), gruppera texter efter betydelse, generera rekommendationer (erbjuda en lista med liknande textsträngar), identifiera anomalier, upptäcka plagiat och klassificera tester. Exempel på användningsområden är användningen av modellen för analys av juridiska dokument, för affärsanalyser, inom medicinsk forskning för bearbetning av vetenskapliga artiklar, vid litteraturkritik, för att analysera ekonomiska rapporter och för att förbättra kvaliteten på chatbot-behandling av komplexa frågor.

Två versioner av jina-inbäddningsmodellen finns tillgängliga för nedladdning (grundläggande - 0.27 GB och reducerat - 0.07 GB), tränade på 400 miljoner par textsekvenser på engelska, som täcker olika kunskapsområden. Under träningen användes sekvenser med en storlek på 512 tokens, som extrapolerades till en storlek på 8192 med användning av ALiBi-metoden (Attention with Linear Biases).

Grundmodellen innehåller 137 miljoner parametrar och är designad för användning på stationära system med en GPU. Den reducerade modellen innehåller 33 miljoner parametrar, ger mindre noggrannhet och är inriktad på användning på mobila enheter och system med en liten mängd minne. Inom en snar framtid planerar de också att publicera en stor modell som kommer att täcka 435 miljoner parametrar. En flerspråkig version av modellen är också under utveckling, med fokus på stöd för tyska och spanska. En plugin har förberetts separat för att använda jina-inbäddningsmodellen genom LLM-verktygslådan.

Källa: opennet.ru

Lägg en kommentar