Zbatimi i një sistemi të mësimit të makinerive për sintezën e imazheve bazuar në përshkrimin e tekstit

Një zbatim i hapur i sistemit të mësimit të makinerive DALL-E 2, i propozuar nga OpenAI, është publikuar dhe ju lejon të sintetizoni imazhe dhe piktura realiste bazuar në një përshkrim teksti në gjuhën natyrore, si dhe të aplikoni komanda në gjuhën natyrore për të redaktuar imazhet ( për shembull, shtoni, fshini ose zhvendosni objektet në imazh). Modelet origjinale DALL-E 2 të OpenAI nuk janë publikuar, por një dokument që detajon metodën është në dispozicion. Bazuar në përshkrimin ekzistues, studiues të pavarur kanë përgatitur një zbatim alternativ të shkruar në Python, duke përdorur kornizën Pytorch dhe të shpërndarë nën licencën MIT.

Zbatimi i një sistemi të mësimit të makinerive për sintezën e imazheve bazuar në përshkrimin e tekstitZbatimi i një sistemi të mësimit të makinerive për sintezën e imazheve bazuar në përshkrimin e tekstit

Krahasuar me implementimin e publikuar më parë të gjeneratës së parë të DALL-E, versioni i ri siguron një përputhje më të saktë të imazhit me përshkrimin, lejon fotorealizëm më të madh dhe bën të mundur gjenerimin e imazheve në rezolucion më të lartë. Sistemi kërkon burime të mëdha për të trajnuar modelin; për shembull, trajnimi i versionit origjinal të DALL-E 2 kërkon 100-200 mijë orë llogaritje në GPU, d.m.th. rreth 2-4 javë llogaritje me 256 GPU NVIDIA Tesla V100.

Zbatimi i një sistemi të mësimit të makinerive për sintezën e imazheve bazuar në përshkrimin e tekstit

I njëjti autor gjithashtu filloi të zhvillonte një version të zgjeruar - DALLE2 Video, që synonte sintetizimin e videos nga një përshkrim teksti. Më vete, mund të vërejmë projektin ru-dalle të zhvilluar nga Sberbank, me një zbatim të hapur të gjeneratës së parë DALL-E, të përshtatur për njohjen e përshkrimeve në Rusisht.

Burimi: opennet.ru

Shto një koment