Åben kildekode til Jina Embedding, en model til vektorrepræsentation af tekstbetydning

Jina har open source en maskinlæringsmodel til vektortekstrepræsentation, jina-embeddings-v2.0, under Apache 2-licensen. Modellen giver dig mulighed for at konvertere vilkårlig tekst, inklusive op til 8192 tegn, til en lille sekvens af reelle tal, der danner en vektor, der sammenlignes med kildeteksten og gengiver dens semantik (betydning). Jina Embedding var den første åbne maskinlæringsmodel, der havde samme ydeevne som den proprietære tekstvektoriseringsmodel fra OpenAI-projektet (text-embedding-ada-002), også i stand til at behandle tekst med op til 8192 tokens.

Afstanden mellem to genererede vektorer kan bruges til at bestemme kildeteksternes semantiske forhold. I praksis kan de genererede vektorer bruges til at analysere ligheden mellem tekster, organisere en søgning efter materialer relateret til emnet (rangering af resultater efter semantisk nærhed), gruppere tekster efter betydning, generere anbefalinger (tilbyde en liste over lignende tekststrenge), identificere anomalier, opdage plagiat og klassificere tests. Eksempler på anvendelsesområder omfatter brugen af ​​modellen til analyse af juridiske dokumenter, til forretningsanalyse, i medicinsk forskning til bearbejdning af videnskabelige artikler, i litteraturkritik, til parsing af økonomiske rapporter og til forbedring af kvaliteten af ​​chatbot-behandling af komplekse problemstillinger.

To versioner af jina-embeddings-modellen er tilgængelige til download (grundlæggende - 0.27 GB og reduceret - 0.07 GB), trænet på 400 millioner par tekstsekvenser på engelsk, der dækker forskellige vidensområder. Under træningen blev der brugt sekvenser med en størrelse på 512 tokens, som blev ekstrapoleret til en størrelse på 8192 ved hjælp af ALiBi (Attention with Linear Biases) metoden.

Grundmodellen omfatter 137 millioner parametre og er designet til brug på stationære systemer med en GPU. Den reducerede model omfatter 33 millioner parametre, giver mindre nøjagtighed og er rettet mod brug på mobile enheder og systemer med en lille mængde hukommelse. I den nærmeste fremtid planlægger de også at udgive en stor model, der vil dække 435 millioner parametre. En flersproget version af modellen er også under udvikling, der i øjeblikket fokuserer på understøttelse af tysk og spansk. Der er udarbejdet et plugin separat til brug af jina-embeddings-modellen gennem LLM-værktøjssættet.

Kilde: opennet.ru

Tilføj en kommentar