Текстийн утгыг вектор дүрслэх загвар болох Jina Embedding-ийн нээлттэй эх код

Jina Apache 2.0 лицензийн дагуу jina-embeddings-v2 гэсэн вектор текст дүрслэлд зориулсан машин сургалтын загварыг нээлттэй эх сурвалжаас гаргаж авсан. Энэхүү загвар нь дурын текстийг, түүний дотор 8192 тэмдэгтийг эх тексттэй харьцуулж, түүний утгыг (утга) хуулбарлах вектор үүсгэдэг бодит тоонуудын жижиг дараалал болгон хөрвүүлэх боломжийг олгодог. Jina Embedding нь OpenAI төслийн (text-embedding-ada-002) өмчийн текст векторжуулалтын загвартай ижил гүйцэтгэлтэй, 8192 хүртэлх жетонтой текст боловсруулах чадвартай анхны нээлттэй машин сургалтын загвар юм.

Үүсгэсэн хоёр векторын хоорондох зайг ашиглан эх бичвэрүүдийн утгын хамаарлыг тодорхойлж болно. Практикт үүсгэсэн векторуудыг текстийн ижил төстэй байдалд дүн шинжилгээ хийх, сэдэвтэй холбоотой материалыг хайх ажлыг зохион байгуулах (үр дүнг утгын ойролцоо байдлаар эрэмбэлэх), текстийг утгаараа бүлэглэх, зөвлөмж гаргах (ижил төстэй текстийн мөрийн жагсаалтыг санал болгох) зэрэгт ашиглаж болно. гажиг илрүүлэх, хулгайн гэмт хэргийг илрүүлэх, тестийг ангилах. Ашиглалтын талбарт жишээ нь хууль эрх зүйн баримт бичигт дүн шинжилгээ хийх, бизнесийн аналитик, анагаах ухааны судалгаанд шинжлэх ухааны нийтлэл боловсруулах, утга зохиолын шүүмжлэл, санхүүгийн тайланг задлан шинжлэх, нарийн төвөгтэй асуудлыг чатботоор боловсруулах чанарыг сайжруулахад ашиглах болно.

jina-embeddings загварын хоёр хувилбарыг татаж авах боломжтой (үндсэн - 0.27 ГБ ба багассан - 0.07 ГБ), мэдлэгийн янз бүрийн салбарыг хамарсан англи хэл дээрх 400 сая хос текстийн дараалалд сургагдсан. Сургалтын явцад 512 жетон хэмжээтэй дарааллыг ашигласан бөгөөд эдгээрийг ALiBi (Шугаман хэвийсэн анхаарал хандуулах) аргыг ашиглан 8192 хэмжээтэй экстраполяци хийсэн.

Үндсэн загвар нь 137 сая параметрийг багтаасан бөгөөд GPU бүхий суурин системд ашиглахад зориулагдсан. Багасгасан загвар нь 33 сая параметрийг багтаасан бөгөөд бага нарийвчлалтай бөгөөд бага хэмжээний санах ойтой хөдөлгөөнт төхөөрөмж, системд ашиглахад чиглэгддэг. Ойрын ирээдүйд тэд мөн 435 сая параметрийг хамарсан томоохон загвар гаргахаар төлөвлөж байна. Загварын олон хэл дээрх хувилбарыг боловсруулж байгаа бөгөөд одоогоор Герман, Испани хэлийг дэмжихэд анхаарлаа хандуулж байна. LLM хэрэглүүрээр дамжуулан jina-embeddings загварыг ашиглахад зориулж залгаасыг тусад нь бэлтгэсэн.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх