Tekstikirjeldusel põhineva pildisünteesi masinõppesüsteemi juurutamine

Avaldatud on OpenAI pakutud masinõppesüsteemi DALL-E 2 avatud rakendus, mis võimaldab sünteesida loomulikus keeles tekstikirjelduse põhjal realistlikke pilte ja maale ning rakendada piltide redigeerimiseks loomulikus keeles käske ( näiteks pildil olevaid objekte lisada, kustutada või teisaldada ). OpenAI originaalseid DALL-E 2 mudeleid ei avaldata, kuid meetodit kirjeldav paber on saadaval. Olemasoleva kirjelduse põhjal on sõltumatud teadlased koostanud alternatiivse Pythonis kirjutatud teostuse, kasutades Pytorchi raamistikku ja mida levitatakse MIT litsentsi all.

Tekstikirjeldusel põhineva pildisünteesi masinõppesüsteemi juurutamineTekstikirjeldusel põhineva pildisünteesi masinõppesüsteemi juurutamine

Võrreldes varem avaldatud esimese põlvkonna DALL-E teostusega annab uus versioon pildi täpsema sobitamise kirjeldusega, võimaldab suuremat fotorealismi ja võimaldab genereerida pilte suurema eraldusvõimega. Süsteem nõuab mudeli väljaõpetamiseks suuri ressursse, näiteks DALL-E 2 originaalversiooni treenimine nõuab 100-200 tuhat tundi GPU-l, s.t. umbes 2-4 nädalat arvutusi 256 NVIDIA Tesla V100 GPU-ga.

Tekstikirjeldusel põhineva pildisünteesi masinõppesüsteemi juurutamine

Sama autor alustas ka laiendatud versiooni – DALLE2 Video väljatöötamist, mille eesmärk oli sünteesida video tekstikirjeldusest. Eraldi võime märkida Sberbanki välja töötatud projekti ru-dalle, millel on esimese põlvkonna DALL-E avatud rakendus, mis on kohandatud venekeelsete kirjelduste tuvastamiseks.

Allikas: opennet.ru

Lisa kommentaar