Implementacja systemu uczenia maszynowego do syntezy obrazu na podstawie opisu tekstowego

Opublikowano otwartą implementację systemu uczenia maszynowego DALL-E 2, zaproponowaną przez OpenAI, która pozwala na syntezę realistycznych obrazów i obrazów na podstawie opisu tekstowego w języku naturalnym, a także stosowanie poleceń w języku naturalnym do edycji obrazów ( na przykład dodać, usunąć lub przenieść obiekty na obrazie). Oryginalne modele DALL-E 2 OpenAI nie są publikowane, ale dostępny jest artykuł szczegółowo opisujący tę metodę. Na podstawie istniejącego opisu niezależni badacze przygotowali alternatywną implementację napisaną w języku Python, wykorzystującą framework Pytorch i dystrybuowaną na licencji MIT.

Implementacja systemu uczenia maszynowego do syntezy obrazu na podstawie opisu tekstowegoImplementacja systemu uczenia maszynowego do syntezy obrazu na podstawie opisu tekstowego

W porównaniu do wcześniej opublikowanej implementacji pierwszej generacji DALL-E, nowa wersja zapewnia dokładniejsze dopasowanie obrazu do opisu, pozwala na większy fotorealizm i umożliwia generowanie obrazów w wyższych rozdzielczościach. System wymaga dużych zasobów do wytrenowania modelu, przykładowo wytrenowanie oryginalnej wersji DALL-E 2 wymaga 100-200 tysięcy godzin obliczeń na GPU, czyli tzw. około 2-4 tygodni obliczeń z 256 procesorami graficznymi NVIDIA Tesla V100.

Implementacja systemu uczenia maszynowego do syntezy obrazu na podstawie opisu tekstowego

Ten sam autor rozpoczął także prace nad wersją rozszerzoną - DALLE2 Video, mającą na celu syntezę wideo z opisu tekstowego. Osobno możemy zwrócić uwagę na projekt ru-dalle opracowany przez Sberbank, z otwartą implementacją DALL-E pierwszej generacji, przystosowaną do rozpoznawania opisów w języku rosyjskim.

Źródło: opennet.ru

Dodaj komentarz