Open source code no Jina Embedding, he kumu hoʻohālike no ka hōʻike vector o ke ʻano kikokikona

Ua wehe ʻo Jina i kahi kumu hoʻohālike aʻo mīkini no ka hōʻike ʻana i nā kikokikona vector, jina-embeddings-v2.0, ma lalo o ka laikini Apache 2. Hāʻawi ke kumu hoʻohālike iā ʻoe e hoʻololi i nā kikokikona kūʻokoʻa, a hiki i 8192 mau huaʻōlelo, i loko o kahi kaʻina liʻiliʻi o nā helu maoli e hana i kahi vector i hoʻohālikelike ʻia me ka kikokikona kumu a hoʻopuka hou i kāna mau semantics (manaʻo). ʻO Jina Embedding ke kumu aʻo mīkini wehe mua i loaʻa ka hana like me ke kumu hoʻohālike kikokikona vectorization proprietary mai ka papahana OpenAI (text-embedding-ada-002), hiki nō hoʻi ke hana i nā kikokikona me nā hōʻailona 8192.

Hiki ke hoʻohana ʻia ka mamao ma waena o nā vectors i hana ʻia no ka hoʻoholo ʻana i ka pilina semantic o nā kikokikona kumu. I ka hoʻomaʻamaʻa ʻana, hiki ke hoʻohana ʻia nā vectors i hana ʻia e kālailai i ka like o nā kikokikona, hoʻonohonoho i kahi ʻimi no nā mea e pili ana i ke kumuhana (ka hoʻonohonoho ʻana i nā hopena ma ke ʻano semantic), nā huaʻōlelo pūʻulu ma ke ʻano, hana i nā manaʻo (hāʻawi i kahi papa inoa o nā kaula kikokikona like), ʻike i nā anomalies, ʻike i ka plagiarism a hoʻokaʻawale i nā hoʻokolohua. ʻO nā hiʻohiʻona o nā wahi o ka hoʻohana ʻana me ka hoʻohana ʻana i ke kumu hoʻohālike no ka nānā ʻana i nā palapala kānāwai, no ka ʻoihana ʻoihana, i ka noiʻi olakino no ka hoʻoponopono ʻana i nā ʻatikala ʻepekema, i ka hoʻohewa palapala, no ka hoʻopaʻa ʻana i nā hōʻike kālā a no ka hoʻomaikaʻi ʻana i ka maikaʻi o ka hana chatbot o nā pilikia paʻakikī.

Loaʻa nā mana ʻelua o ka jina-embeddings model no ka hoʻoiho ʻana (kumu - 0.27 GB a hoʻemi ʻia - 0.07 GB), i hoʻomaʻamaʻa ʻia ma 400 miliona mau paikini kikokikona ma ka ʻōlelo Pelekania, e uhi ana i nā ʻano ʻike like ʻole. I ka wā o ka hoʻomaʻamaʻa ʻana, ua hoʻohana ʻia nā kaʻina me ka nui o nā hōʻailona 512, i hoʻonui ʻia i ka nui o 8192 me ka hoʻohana ʻana i ke ala ALiBi (Attention with Linear Biases).

ʻO ke kumu hoʻohālike he 137 miliona mau palena a ua hoʻolālā ʻia no ka hoʻohana ʻana i nā ʻōnaehana paʻa me kahi GPU. ʻO ke kumu hoʻohālike i hōʻemi ʻia he 33 miliona mau ʻāpana, hāʻawi i ka liʻiliʻi o ka pololei a ke manaʻo nei e hoʻohana i nā polokalamu kelepona a me nā ʻōnaehana me ka liʻiliʻi o ka hoʻomanaʻo. I ka wā e hiki mai ana, hoʻolālā lākou e hoʻolaha i kahi hiʻohiʻona nui e uhi i 435 miliona mau palena. Ke hoʻomohala ʻia nei kekahi mana ʻōlelo lehulehu o ke kumu hoʻohālike, e kālele ana i kēia manawa i ke kākoʻo no Kelemania a me Sepania. Ua hoʻomākaukau kaʻawale ʻia kahi plugin no ka hoʻohana ʻana i ka hiʻohiʻona jina-embeddings ma o ka LLM toolkit.

Source: opennet.ru

Pākuʻi i ka manaʻo hoʻopuka