Implementacija sistema mašinskog učenja za sintezu slika na osnovu opisa teksta

Objavljena je otvorena implementacija sistema mašinskog učenja DALL-E 2, koju je predložio OpenAI, koja vam omogućava da sintetizirate realistične slike i slike na osnovu tekstualnog opisa na prirodnom jeziku, kao i da primenite komande na prirodnom jeziku za uređivanje slika ( na primjer, dodajte, izbrišite ili premjestite objekte na slici). OpenAI-jevi originalni DALL-E 2 modeli nisu objavljeni, ali je dostupan rad koji opisuje metodu. Na osnovu postojećeg opisa, nezavisni istraživači su pripremili alternativnu implementaciju napisanu na Python-u, koristeći Pytorch framework i distribuiranu pod MIT licencom.

Implementacija sistema mašinskog učenja za sintezu slika na osnovu opisa tekstaImplementacija sistema mašinskog učenja za sintezu slika na osnovu opisa teksta

U poređenju sa prethodno objavljenom implementacijom prve generacije DALL-E, nova verzija pruža preciznije podudaranje slike sa opisom, omogućava veći fotorealizam i omogućava generisanje slika u višim rezolucijama. Sistem zahtijeva velike resurse za obuku modela; na primjer, za obuku originalne verzije DALL-E 2 potrebno je 100-200 hiljada sati računanja na GPU-u, tj. oko 2-4 nedelje proračuna sa 256 NVIDIA Tesla V100 GPU-a.

Implementacija sistema mašinskog učenja za sintezu slika na osnovu opisa teksta

Isti autor je takođe započeo razvoj proširene verzije - DALLE2 Video, čiji je cilj bio sintetiziranje videa iz tekstualnog opisa. Odvojeno, možemo napomenuti projekat ru-dalle koji je razvila Sberbanka, sa otvorenom implementacijom prve generacije DALL-E, prilagođenom za prepoznavanje opisa na ruskom.

izvor: opennet.ru

Dodajte komentar