テキスト記述に基づく画像合成のための機械学習システムの実装

OpenAI によって提案された機械学習システム DALL-E 2 のオープン実装が公開されており、自然言語でのテキスト記述に基づいてリアルな画像や絵画を合成したり、自然言語でコマンドを適用して画像を編集したりすることができます (たとえば、画像内のオブジェクトを追加、削除、または移動します)。 OpenAI のオリジナルの DALL-E 2 モデルは公開されていませんが、その方法を詳しく説明した論文は入手可能です。既存の説明に基づいて、独立した研究者が、Pytorch フレームワークを使用して Python で書かれ、MIT ライセンスの下で配布される代替実装を準備しました。

テキスト記述に基づく画像合成のための機械学習システムの実装テキスト記述に基づく画像合成のための機械学習システムの実装

以前に公開された第 2 世代の DALL-E 実装と比較して、新しいバージョンでは、画像と説明がより正確に一致し、フォトリアリズムが向上し、より高い解像度で画像を生成できるようになります。システムはモデルをトレーニングするために大量のリソースを必要とします。たとえば、DALL-E 100 のオリジナル バージョンをトレーニングするには、GPU で 200 万から 2 万時間のコンピューティングが必要です。 4 個の NVIDIA Tesla V256 GPU を使用した計算には約 100 ~ XNUMX 週間かかります。

テキスト記述に基づく画像合成のための機械学習システムの実装

同じ作者は、テキストの説明からビデオを合成することを目的とした拡張バージョン、DALLE2 Video の開発も開始しました。これとは別に、ロシア語の説明を認識するように調整された第一世代 DALL-E のオープン実装を備えた、ズベルバンクによって開発された ru-dalle プロジェクトに注目することができます。

出所: オープンネット.ru

コメントを追加します