基於文字描述的圖像合成機器學習系統的實現

OpenAI 提出的 DALL-E 2 機器學習系統的開放實作已經發布,讓您可以根據自然語言的文字描述合成逼真的圖像和繪畫,以及應用自然語言的命令來編輯圖像(例如,添加、刪除或移動圖像中的對象)。 OpenAI 的原始 DALL-E 2 模型尚未發布,但有一篇論文詳細介紹了該方法。 根據現有的描述,獨立研究人員準備了一種用 Python 編寫的替代實現,使用 Pytorch 框架並在 MIT 許可下分發。

基於文字描述的圖像合成機器學習系統的實現基於文字描述的圖像合成機器學習系統的實現

與先前發布的第一代 DALL-E 實現相比,新版本提供了圖像與描述的更準確匹配,實現了更高的照片真實感,並可以產生更高解析度的圖像。 該系統需要大量資源來訓練模型;例如,訓練原始版本的 DALL-E 2 需要在 GPU 上進行 100-200 萬小時的計算,即使用 2 個 NVIDIA Tesla V4 GPU 進行大約 256-100 週的計算。

基於文字描述的圖像合成機器學習系統的實現

該作者也開始開發一個擴展版本 - DALLE2 Video,旨在從文字描述合成影片。 另外,我們可以注意到 Sberbank 開發的 ru-dalle 項目,該項目開放實施第一代 DALL-E,適用於識別俄語描述。

來源: opennet.ru

添加評論