Jina Embeddingi avatud lähtekood, mis on teksti tähenduse vektorkujutiste mudel

Jinal on Apache 2.0 litsentsi all avatud lähtekoodiga masinõppemudel vektorteksti esituseks, jina-embeddings-v2. Mudel võimaldab teisendada suvalise teksti, mis sisaldab kuni 8192 tähemärki, väikeseks reaalarvude jadaks, mis moodustab vektori, mida võrreldakse lähtetekstiga ja taastoodab selle semantika (tähenduse). Jina Embedding oli esimene avatud masinõppemudel, millel oli sama jõudlus kui OpenAI projekti patenteeritud teksti vektoriseerimismudel (text-embedding-ada-002), mis on samuti võimeline töötlema teksti kuni 8192 märgiga.

Kahe genereeritud vektori vahekaugust saab kasutada lähtetekstide semantilise seose määramiseks. Praktikas saab genereeritud vektorite abil analüüsida tekstide sarnasust, korraldada teemaga seotud materjalide otsingut (tulemuste järjestamine semantilise läheduse järgi), tekste tähenduse järgi rühmitada, soovitusi genereerida (sarnaste tekstistringide loendi pakkumine), tuvastada kõrvalekaldeid, tuvastada plagiaati ja klassifitseerida teste. Kasutusvaldkonnad on näiteks mudeli kasutamine juriidiliste dokumentide analüüsiks, ärianalüütikaks, meditsiinilistes uuringutes teadusartiklite töötlemiseks, kirjanduskriitikas, finantsaruannete parsimiseks ja keeruliste küsimuste vestlusrobotite töötlemise kvaliteedi parandamiseks.

Allalaadimiseks on saadaval kaks jina-manustamise mudeli versiooni (tavaline - 0.27 GB ja vähendatud - 0.07 GB), mis on treenitud 400 miljoni paari ingliskeelse tekstijada jaoks, mis hõlmavad erinevaid teadmiste valdkondi. Treeningu käigus kasutati 512 märgi suuruse jada, mis ekstrapoleeriti ALiBi (Attention with Linear Biases) meetodi abil suurusele 8192.

Põhimudel sisaldab 137 miljonit parameetrit ja on mõeldud kasutamiseks GPU-ga statsionaarsetes süsteemides. Vähendatud mudel sisaldab 33 miljonit parameetrit, tagab väiksema täpsuse ja on mõeldud kasutamiseks mobiilseadmetes ja väikese mälumahuga süsteemides. Lähiajal plaanivad nad avaldada ka suure mudeli, mis katab 435 miljonit parameetrit. Arendamisel on ka mudeli mitmekeelne versioon, mis keskendub praegu saksa ja hispaania keele toele. LLM-i tööriistakomplekti kaudu on jina-embeddingsi mudeli kasutamiseks eraldi ette valmistatud pistikprogramm.

Allikas: opennet.ru

Lisa kommentaar