Implementace systému strojového učení pro syntézu obrazu na základě textového popisu

Otevřená implementace systému strojového učení DALL-E 2 navržená společností OpenAI byla zveřejněna a umožňuje syntetizovat realistické obrázky a malby na základě textového popisu v přirozeném jazyce a také používat příkazy v přirozeném jazyce pro úpravy obrázků ( například přidat, odstranit nebo přesunout objekty v obrázku). Původní modely DALL-E 2 OpenAI nejsou publikovány, ale dokument popisující metodu je k dispozici. Na základě stávajícího popisu připravili nezávislí výzkumníci alternativní implementaci napsanou v Pythonu, využívající framework Pytorch a distribuovanou pod licencí MIT.

Implementace systému strojového učení pro syntézu obrazu na základě textového popisuImplementace systému strojového učení pro syntézu obrazu na základě textového popisu

Ve srovnání s dříve publikovanou implementací první generace DALL-E poskytuje nová verze přesnější shodu obrázku s popisem, umožňuje větší fotorealismus a umožňuje generovat obrázky ve vyšším rozlišení. Systém vyžaduje velké prostředky na trénování modelu, například trénování původní verze DALL-E 2 vyžaduje 100-200 tisíc hodin výpočtů na GPU, tzn. asi 2-4 týdny výpočtů s 256 GPU NVIDIA Tesla V100.

Implementace systému strojového učení pro syntézu obrazu na základě textového popisu

Stejný autor také začal vyvíjet rozšířenou verzi - DALLE2 Video, zaměřenou na syntézu videa z textového popisu. Samostatně můžeme zaznamenat projekt ru-dalle vyvinutý Sberbank s otevřenou implementací první generace DALL-E, přizpůsobenou pro rozpoznávání popisů v ruštině.

Zdroj: opennet.ru

Přidat komentář