Kodi i hapur për Jina Embedding, një model për paraqitjen vektoriale të kuptimit të tekstit

Jina ka me burim të hapur një model të mësimit të makinës për përfaqësimin e tekstit vektor, jina-embeddings-v2.0, nën licencën Apache 2. Modeli ju lejon të konvertoni tekstin arbitrar, duke përfshirë deri në 8192 karaktere, në një sekuencë të vogël numrash realë që formojnë një vektor që krahasohet me tekstin burimor dhe riprodhon semantikën (kuptimin) e tij. Jina Embedding ishte modeli i parë i të mësuarit me makinë të hapur që kishte të njëjtën performancë si modeli i vektorizimit të tekstit të pronarit nga projekti OpenAI (text-embedding-ada-002), gjithashtu i aftë për të përpunuar tekst me deri në 8192 shenja.

Distanca midis dy vektorëve të gjeneruar mund të përdoret për të përcaktuar marrëdhënien semantike të teksteve burimore. Në praktikë, vektorët e krijuar mund të përdoren për të analizuar ngjashmërinë e teksteve, për të organizuar një kërkim për materiale që lidhen me temën (renditja e rezultateve sipas afërsisë semantike), grupimi i teksteve sipas kuptimit, gjenerimi i rekomandimeve (ofrimi i një liste vargjesh të ngjashme teksti), të identifikojë anomalitë, të zbulojë plagjiaturën dhe të klasifikojë testet. Shembuj të fushave të përdorimit përfshijnë përdorimin e modelit për analizën e dokumenteve ligjore, për analitikën e biznesit, në kërkimin mjekësor për përpunimin e artikujve shkencorë, në kritikën letrare, për analizimin e raporteve financiare dhe për përmirësimin e cilësisë së përpunimit chatbot të çështjeve komplekse.

Dy versione të modelit jina-embeddings janë në dispozicion për shkarkim (bazë - 0.27 GB dhe i reduktuar - 0.07 GB), të trajnuar në 400 milionë çifte sekuencash tekstesh në anglisht, që mbulojnë fusha të ndryshme njohurish. Gjatë trajnimit, u përdorën sekuenca me madhësi 512 token, të cilat u ekstrapoluan në një madhësi prej 8192 duke përdorur metodën ALiBi (Vëmendje me Paragjykime Lineare).

Modeli bazë përfshin 137 milionë parametra dhe është projektuar për përdorim në sisteme të palëvizshme me një GPU. Modeli i reduktuar përfshin 33 milionë parametra, siguron më pak saktësi dhe synon përdorimin në pajisje dhe sisteme celulare me një sasi të vogël memorie. Në të ardhmen e afërt ata planifikojnë të publikojnë edhe një model të madh që do të mbulojë 435 milionë parametra. Një version shumëgjuhësh i modelit është gjithashtu në zhvillim, duke u fokusuar aktualisht në mbështetjen për gjermanisht dhe spanjisht. Një shtesë është përgatitur veçmas për përdorimin e modelit jina-embeddings përmes paketës së veglave LLM.

Burimi: opennet.ru

Shto një koment