Implementácia systému strojového učenia pre syntézu obrazu na základe textového popisu

Bola zverejnená otvorená implementácia systému strojového učenia DALL-E 2 navrhnutá spoločnosťou OpenAI a umožňuje vám syntetizovať realistické obrázky a maľby na základe textového popisu v prirodzenom jazyku, ako aj použiť príkazy v prirodzenom jazyku na úpravu obrázkov ( napríklad pridať, odstrániť alebo presunúť objekty na obrázku). Pôvodné modely OpenAI DALL-E 2 nie sú publikované, ale dokument s podrobnosťami o metóde je k dispozícii. Na základe existujúceho popisu pripravili nezávislí výskumníci alternatívnu implementáciu napísanú v Pythone, využívajúcu rámec Pytorch a distribuovanú pod licenciou MIT.

Implementácia systému strojového učenia pre syntézu obrazu na základe textového popisuImplementácia systému strojového učenia pre syntézu obrazu na základe textového popisu

V porovnaní s predtým publikovanou implementáciou prvej generácie DALL-E poskytuje nová verzia presnejšiu zhodu obrázka s popisom, umožňuje väčší fotorealizmus a umožňuje vytvárať obrázky vo vyššom rozlíšení. Systém vyžaduje veľké zdroje na trénovanie modelu, napríklad trénovanie pôvodnej verzie DALL-E 2 vyžaduje 100-200 tisíc hodín výpočtov na GPU, t.j. asi 2-4 týždne výpočtov s 256 GPU NVIDIA Tesla V100.

Implementácia systému strojového učenia pre syntézu obrazu na základe textového popisu

Ten istý autor začal vyvíjať aj rozšírenú verziu – DALLE2 Video, zameranú na syntézu videa z textového popisu. Samostatne si môžeme všimnúť projekt ru-dalle vyvinutý Sberbank s otvorenou implementáciou prvej generácie DALL-E, prispôsobenej na rozpoznávanie popisov v ruštine.

Zdroj: opennet.ru

Pridať komentár