Jina Embedding 的開源程式碼,一種文字意義向量表示模型

Jina 在 Apache 2.0 許可下開源了用於向量文字表示的機器學習模型 jina-embeddings-v2。 該模型允許您將任意文字(包括最多 8192 個字元)轉換為一小段實數序列,這些實數序列形成一個向量,與來源文字進行比較並重現其語義(含義)。 Jina Embedding 是第一個開放式機器學習模型,其效能與 OpenAI 專案 (text-embedding-ada-002) 的專有文字向量化模型相同,也能夠處理最多 8192 個標記的文字。

兩個產生的向量之間的距離可用於確定來源文本的語義關係。 在實踐中,產生的向量可用於分析文本的相似性,組織對與主題相關的材料的搜尋(按語義接近度對結果進行排名),按含義對文本進行分組,生成推薦(提供相似文本字符串的列表),識別異常、檢測抄襲並對測試進行分類。 使用領域的範例包括使用該模型來分析法律文件、商業分析、醫學研究中處理科學文章、文學批評、解析財務報告以及提高聊天機器人處理複雜問題的品質。

jina-embeddings 模型的兩個版本可供下載(基本版 - 0.27 GB 和精簡版 - 0.07 GB),使用 400 億對英文文本序列進行訓練,涵蓋各個知識領域。 在訓練過程中,使用了大小為 512 個標記的序列,並使用 ALiBi(線性偏差注意)方法將其外推到大小為 8192。

基本模型包含 137 億個參數,設計用於具有 GPU 的固定係統。 縮減後的模型包含 33 萬個參數,精度較低,旨在用於行動裝置和記憶體較小的系統。 在不久的將來,他們還計劃發布一個涵蓋 435 億個參數的大型模型。 該模型的多語言版本也在開發中,目前重點支援德語和西班牙語。 已經單獨準備了一個插件,用於透過 LLM 工具包使用 jina-embeddings 模型。

來源: opennet.ru

添加評論