Open source code per Jina Embedding, un mudellu per a rapprisintazioni vettoriali di u significatu di testu

Jina hà apertu un mudellu d'apprendimentu automaticu per a rapprisintazioni di testi vettoriali, jina-embeddings-v2.0, sottu a licenza Apache 2. U mudellu permette di cunvertisce u testu arbitrariu, cumpresu finu à 8192 caratteri, in una piccula sequenza di numeri reali chì formanu un vettore chì hè paragunatu cù u testu fonte è riproduce a so semantica (significatu). Jina Embedding hè statu u primu mudellu d'apprendimentu automaticu apertu à avè u listessu rendimentu cum'è u mudellu di vettore di testu patentatu da u prughjettu OpenAI (text-embedding-ada-002), ancu capaci di processà u testu cù 8192 tokens.

A distanza trà dui vettori generati pò esse usata per determinà a relazione semantica di i testi fonte. In pratica, i vettori generati ponu esse utilizati per analizà a similitudine di testi, urganizà una ricerca di materiali ligati à u tema (ranking risultati per vicinanza semantica), gruppi di testi per significatu, generà cunsiglii (offre una lista di stringhe di testu simili), identificà anomalie, detectà u plagiu è classificà i testi. Esempii di spazii di usu includenu l'usu di u mudellu per l'analisi di documenti legali, per l'analisi di l'affari, in a ricerca medica per u processu di l'articuli scientifichi, in a critica literaria, per l'analisi di rapporti finanziarii è per migliurà a qualità di u processu di chatbot di prublemi cumplessi.

Dui versioni di u mudellu jina-embeddings sò dispunibuli per scaricamentu (basic - 0.27 GB è ridutta - 0.07 GB), furmati nantu à 400 milioni di coppie di sequenze di testu in inglese, chì coprenu diversi campi di cunniscenza. Durante a furmazione, i sequenzi cù una dimensione di 512 tokens sò stati utilizati, chì sò stati estrapolati à una dimensione di 8192 cù u metu ALiBi (Attention with Linear Biases).

U mudellu basicu include 137 milioni di paràmetri è hè pensatu per l'usu in sistemi stazionarii cù una GPU. U mudellu ridutta include 33 milioni di paràmetri, furnisce menu precisione è hè destinatu à l'usu di i dispositi mobili è sistemi cù una piccula quantità di memoria. In un futuru vicinu, anu ancu pensatu di pubblicà un grande mudellu chì coprerà 435 milioni di parametri. Una versione multilingue di u mudellu hè ancu in sviluppu, attualmente cuncintrata in u supportu per u tedescu è u spagnolu. Un plugin hè statu preparatu separatamente per utilizà u mudellu jina-embeddings attraversu u toolkit LLM.

Source: opennet.ru

Add a comment