テキストの意味のベクトル表現のモデルである Jina Embedding のオープンソース コード

Jina は、Apache 2.0 ライセンスに基づいて、ベクトル テキスト表現用の機械学習モデル jina-embeddings-v2 をオープンソース化しました。 このモデルを使用すると、最大 8192 文字を含む任意のテキストを、ソース テキストと比較してそのセマンティクス (意味) を再現するベクトルを形成する小さな実数シーケンスに変換できます。 Jina Embedding は、OpenAI プロジェクトの独自のテキスト ベクトル化モデル (text-embedding-ada-002) と同じパフォーマンスを持つ最初のオープン機械学習モデルであり、最大 8192 トークンのテキストを処理することもできます。

生成された XNUMX つのベクトル間の距離を使用して、ソース テキストの意味関係を判断できます。 実際には、生成されたベクトルを使用して、テキストの類似性を分析し、トピックに関連する資料の検索を整理し (結果の意味的近さによるランク付け)、テキストを意味別にグループ化し、推奨事項を生成します (類似したテキスト文字列のリストを提供します)。異常を特定し、盗作を検出し、テストを分類します。 使用分野の例には、法的文書の分析、ビジネス分析、科学論文を処理するための医学研究、文学批評、財務報告書の解析、複雑な問題のチャットボット処理の品質向上のためのモデルの使用が含まれます。

jina-embeddings モデルの 0.27 つのバージョン (基本 - 0.07 GB と縮小 - 400 GB) がダウンロード可能で、512 億ペアの英語のテキスト シーケンスでトレーニングされ、さまざまな知識分野をカバーしています。 トレーニング中に、8192 トークンのサイズのシーケンスが使用され、ALiBi (Attendee with Linear Biases) メソッドを使用して XNUMX のサイズに外挿されました。

基本モデルには 137 億 33 万のパラメータが含まれており、GPU を備えた固定システムで使用するように設計されています。 縮小されたモデルには 435 万のパラメータが含まれており、精度が低く、メモリ容量が少ないモバイル デバイスやシステムでの使用を目的としています。 近い将来、XNUMX 億 XNUMX 万個のパラメータをカバーする大規模なモデルも公開する予定です。 このモデルの多言語バージョンも開発中であり、現在はドイツ語とスペイン語のサポートに重点を置いています。 LLM ツールキットを通じて jina-embeddings モデルを使用するためのプラグインが別途用意されています。

出所: オープンネット.ru

コメントを追加します