RedPajama プロジェクトは人工知能システム用のオープン データセットを開発します

ChatGPT などの商用製品と競合するインテリジェント アシスタントの作成に使用できる、オープンな機械学習モデルとそれに伴うトレーニング入力の作成を目的とした共同プロジェクトである RedPajama を導入しました。 オープンソース データと大規模な言語モデルが利用できるようになったことで、独立した機械学習研究チームが解放され、カスタムの会話システムの構築が容易になることが期待されています。 Together、Ontocord.ai、ETH DS3Lab、Stanford CRFM、Hazy Research、MILA Québec AI Institute などの組織やコミュニティがプロジェクトに参加しました。

最初のステップは、1 兆個のトークンを含む会話モデルをトレーニングするための RedPajama-Data-1.2T データセットの公開でした。 RedPajama スイートは、Facebook が LLaMA モデル (1.25 兆 1 億トークン相当) を作成するために使用した公開データを再現していますが、オープンで非制限的なライセンスの下で提供されています (LLaMA データとモデルは、非公開の特別なリクエストがあった研究者にのみ利用可能でした) -商業利用)。 RedPajama-Data-2.67T ダウンロード セットのサイズは XNUMX TB で、Common Crawl でインデックス付けされた Web ページ、Wikipedia アーカイブ、GitHub のソース コード、Gutenberg ライブラリのパブリック ドメイン書籍、ArXiv アーカイブの科学記事、およびStack Overflow およびその他の Stack Exchange サイト。

準備されたデータセットに基づいてトレーニングされ、Alpaca プロジェクトと OpenChatKit プロジェクトからの命令実行の形式で既製の対話例を使用して最適化された既製のモデルが、今後数週間で形成される予定です。 同様の言語モデルの取り組みには、部分的にオープンソースのプロジェクトである LLaMA、Alpaca、Vicuna、Koala や、完全にオープンソースの取り組みである Pythia、OpenChatKit、Open Assistant、および Dolly が含まれます。

さらに、機械学習に関連するいくつかの新しいプロジェクトにも注目できます。

  • MiniGPT-4 - 従来の対話型チャットボットを視覚情報を考慮した機能で拡張します。これにより、システムと対話するときに画像を分析し、手書きのテキストを考慮できるようになります (たとえば、写真にどのようなオブジェクトが表示されているかを尋ねることができます) 、写真に示されているものに基づいてストーリーを書くようにボットに依頼する、または概略的なスケッチに基づいて、Web サイトの作成を依頼する)。 MiniGPT-4 実装は Python で書かれており、BSD ライセンスに基づいて配布されます。
  • Facebook は、一般化された視覚データ処理の問題 (画像分類、情報の抽出) の解決に適したツールと自己学習 (SSL、自己教師あり学習、トレーニング中に人間が用意したラベルや注釈を使用しない) コンピューター ビジョン モデル DINOv2 を公開しました。画像内のオブジェクト、ビデオ上で何が起こっているかを理解する)、およびピクセルレベルでの操作(深度予測、セグメンテーション)。 モデルは 142 億 4.0 万枚の画像のコレクションでトレーニングされました。 この実装は Python で書かれており、非営利使用を許可するクリエイティブ コモンズ 表示 - 非営利 XNUMX ライセンスに基づいて配布されます。
  • GPT4All は、スタンドアロン チャットボットを独自のハードウェア上で迅速に起動するためのツールキットです (外部サービスにアクセスせず、実行には AVX2 をサポートする CPU を使用します)。 GPT-J および LLaMa に基づく大規模な言語モデルの接続をサポートします。 コードは Python で書かれており、MIT ライセンスの下で配布されます。

出所: オープンネット.ru

コメントを追加します