Jina 发布了基于 Apache 2.0 许可的文本向量化表示机器学习模型 jina-embeddings-v2。该模型可将任意长度不超过 8192 个字符的文本转换为一小段实数序列,形成一个向量,该向量映射到原始文本并重现其语义(含义)。Jina Embedding 是首个性能可与 OpenAI 的专有文本向量化模型 (text-embedding-ada-002) 相媲美的开源机器学习模型,后者同样能够处理长度不超过 8192 个词元的文本。
两个生成向量之间的距离可用于确定源文本之间的语义关系。在实践中,生成的向量可应用于文本相似度分析、相关材料搜索(按语义相似度对结果进行排序)、文本语义分组、生成推荐(建议相似文本列表)、异常检测、抄袭识别和文本分类。潜在应用示例包括:该模型可用于法律文件分析、商业分析、医学研究(用于处理科学文章)、文学批评、财务报告解析以及提升聊天机器人处理复杂问题的质量。
jina-embeddings模型提供两个版本供下载(基线版 - 0.27 GB,精简版 - 0.07 GB),该模型使用涵盖多个领域的400亿对英文文本序列进行训练。训练时使用512个词元大小的序列,并通过ALiBi(基于线性偏置的注意力机制)方法将其外推至8192个词元大小。
基础模型包含 137 亿个参数,专为配备 GPU 的桌面系统设计。简化模型包含 33 万个参数,精度较低,主要面向移动设备和内存有限的系统。一个包含 435 亿个参数的大型模型也计划在不久的将来发布。该模型的多语言版本正在开发中,目前重点支持德语和西班牙语。此外,还开发了一个用于通过 LLM 工具包使用 jina-embeddings 模型的独立插件。
来源: opennet.ru
