Implementacija sistema strojnega učenja za sintezo slik na podlagi besedilnega opisa

Objavljena je bila odprta izvedba sistema za strojno učenje DALL-E 2, ki jo je predlagal OpenAI in omogoča sintetiziranje realističnih slik in slik na podlagi besedilnega opisa v naravnem jeziku ter uporabo ukazov v naravnem jeziku za urejanje slik ( na primer dodajanje, brisanje ali premikanje predmetov na sliki). Originalni modeli OpenAI DALL-E 2 niso objavljeni, vendar je na voljo dokument, ki podrobno opisuje metodo. Na podlagi obstoječega opisa so neodvisni raziskovalci pripravili alternativno izvedbo, napisano v Pythonu, z uporabo ogrodja Pytorch in distribuirano pod licenco MIT.

Implementacija sistema strojnega učenja za sintezo slik na podlagi besedilnega opisaImplementacija sistema strojnega učenja za sintezo slik na podlagi besedilnega opisa

V primerjavi s predhodno objavljeno izvedbo prve generacije DALL-E nova različica zagotavlja natančnejše ujemanje slike z opisom, omogoča večji fotorealizem in omogoča generiranje slik v višjih ločljivostih. Sistem zahteva velike vire za usposabljanje modela; na primer, usposabljanje originalne različice DALL-E 2 zahteva 100-200 tisoč ur računalništva na GPU, tj. približno 2-4 tedne izračunov z 256 grafičnimi procesorji NVIDIA Tesla V100.

Implementacija sistema strojnega učenja za sintezo slik na podlagi besedilnega opisa

Isti avtor je začel razvijati tudi razširjeno različico - DALLE2 Video, namenjeno sintezi videa iz besedilnega opisa. Ločeno lahko omenimo projekt ru-dalle, ki ga je razvila Sberbank, z odprto implementacijo prve generacije DALL-E, prilagojene za prepoznavanje opisov v ruščini.

Vir: opennet.ru

Dodaj komentar