Avoin lähdekoodi Jina Embeddingille, mallille tekstin merkityksen vektoriesitystä varten

Jina on hankkinut avoimen lähdekoodin koneoppimismallin vektoritekstin esittämiseen, jina-embeddings-v2.0, Apache 2 -lisenssillä. Mallin avulla voit muuntaa mielivaltaisen tekstin, mukaan lukien jopa 8192 merkkiä, pieneksi reaalilukusarjaksi, joka muodostaa vektorin, jota verrataan lähdetekstiin ja toistaa sen semantiikan (merkityksen). Jina Embedding oli ensimmäinen avoin koneoppimismalli, jolla oli sama suorituskyky kuin OpenAI-projektin omalla tekstin vektorointimallilla (text-embedding-ada-002), joka pystyy myös käsittelemään tekstiä jopa 8192 tunnisteella.

Kahden generoidun vektorin välistä etäisyyttä voidaan käyttää lähdetekstien semanttisen suhteen määrittämiseen. Käytännössä generoitujen vektoreiden avulla voidaan analysoida tekstien samankaltaisuutta, järjestää aiheeseen liittyvien materiaalien hakua (tulosten järjestys semanttisen läheisyyden mukaan), ryhmitellä tekstejä merkityksen mukaan, tuottaa suosituksia (tarjoa luettelo samankaltaisista tekstijonoista), tunnistaa poikkeavuuksia, havaita plagiointi ja luokitella testit. Esimerkkejä käyttökohteista ovat mallin käyttö oikeudellisten asiakirjojen analysointiin, liiketoimintaanalytiikkaan, lääketieteelliseen tutkimukseen tieteellisten artikkeleiden käsittelyyn, kirjallisuuskritiikkaan, talousraporttien jäsentämiseen ja monimutkaisten asioiden chatbotin käsittelyn laadun parantamiseen.

Jina-embeddings-mallista on ladattavissa kaksi versiota (perus - 0.27 Gt ja alennettu - 0.07 Gt), jotka on koulutettu 400 miljoonalle englanninkieliselle tekstisekvenssille, jotka kattavat eri tietoalueet. Harjoittelun aikana käytettiin sekvenssejä, joiden koko oli 512 merkkiä, jotka ekstrapoloitiin kokoon 8192 käyttämällä ALiBi (Attention with Linear Biases) -menetelmää.

Perusmalli sisältää 137 miljoonaa parametria ja se on suunniteltu käytettäväksi kiinteissä järjestelmissä, joissa on GPU. Supistettu malli sisältää 33 miljoonaa parametria, tarjoaa vähemmän tarkkuutta ja on tarkoitettu käytettäväksi mobiililaitteissa ja järjestelmissä, joissa on vähän muistia. Lähitulevaisuudessa he suunnittelevat myös suuren mallin julkaisemista, joka kattaa 435 miljoonaa parametria. Mallista on myös kehitteillä monikielinen versio, joka keskittyy tällä hetkellä saksan ja espanjan tukemiseen. Jina-embeddings -mallin käyttöä varten on valmistettu erikseen lisäosa LLM-työkalupakin kautta.

Lähde: opennet.ru

Lisää kommentti