Open source code para sa Jina Embedding, isang modelo para sa representasyon ng vector ng kahulugan ng teksto

Nag-open-source si Jina ng modelo ng machine learning para sa representasyon ng vector text, jina-embeddings-v2.0, sa ilalim ng lisensya ng Apache 2. Ang modelo ay nagbibigay-daan sa iyo na i-convert ang arbitrary na teksto, kabilang ang hanggang sa 8192 na mga character, sa isang maliit na pagkakasunud-sunod ng mga tunay na numero na bumubuo ng isang vector na inihambing sa pinagmulang teksto at muling ginawa ang mga semantika nito (kahulugan). Ang Jina Embedding ay ang unang modelo ng open machine learning na may parehong performance gaya ng proprietary text vectorization model mula sa OpenAI project (text-embedding-ada-002), na may kakayahang magproseso ng text na may hanggang 8192 token.

Ang distansya sa pagitan ng dalawang nabuong vector ay maaaring gamitin upang matukoy ang semantikong relasyon ng mga pinagmulang teksto. Sa pagsasagawa, ang mga nabuong vector ay maaaring gamitin upang pag-aralan ang pagkakatulad ng mga teksto, ayusin ang paghahanap para sa mga materyal na nauugnay sa paksa (pagraranggo ng mga resulta ayon sa semantic proximity), pangkat ng mga teksto ayon sa kahulugan, bumuo ng mga rekomendasyon (nag-aalok ng isang listahan ng mga katulad na string ng teksto), tukuyin ang mga anomalya, tuklasin ang plagiarism at uriin ang mga pagsubok. Kabilang sa mga halimbawa ng mga lugar ng paggamit ang paggamit ng modelo para sa pagsusuri ng mga legal na dokumento, para sa analytics ng negosyo, sa medikal na pananaliksik para sa pagproseso ng mga siyentipikong artikulo, sa panitikan na kritisismo, para sa pag-parse ng mga ulat sa pananalapi at para sa pagpapabuti ng kalidad ng pagproseso ng chatbot ng mga kumplikadong isyu.

Dalawang bersyon ng modelo ng jina-embeddings ang magagamit para sa pag-download (basic - 0.27 GB at binawasan - 0.07 GB), sinanay sa 400 milyong pares ng mga pagkakasunud-sunod ng teksto sa English, na sumasaklaw sa iba't ibang larangan ng kaalaman. Sa panahon ng pagsasanay, ginamit ang mga pagkakasunud-sunod na may sukat na 512 token, na na-extrapolated sa laki na 8192 gamit ang pamamaraang ALiBi (Attention with Linear Biases).

Kasama sa pangunahing modelo ang 137 milyong mga parameter at idinisenyo para sa paggamit sa mga nakatigil na system na may GPU. Ang pinababang modelo ay may kasamang 33 milyong mga parameter, nagbibigay ng mas kaunting katumpakan at naglalayong gamitin sa mga mobile device at system na may maliit na halaga ng memorya. Sa malapit na hinaharap plano rin nilang mag-publish ng isang malaking modelo na sasaklaw sa 435 milyong mga parameter. Ang isang multilinggwal na bersyon ng modelo ay nasa pagbuo din, na kasalukuyang tumutuon sa suporta para sa German at Spanish. Ang isang plugin ay inihanda nang hiwalay para sa paggamit ng jina-embeddings model sa pamamagitan ng LLM toolkit.

Pinagmulan: opennet.ru

Magdagdag ng komento