Implementacija sustava strojnog učenja za sintezu slike na temelju tekstualnog opisa

Otvorena implementacija sustava strojnog učenja DALL-E 2, koju je predložio OpenAI, objavljena je i omogućuje sintetiziranje realističnih slika i slika na temelju opisa teksta na prirodnom jeziku, kao i primjenu naredbi na prirodnom jeziku za uređivanje slika ( na primjer, dodavanje, brisanje ili premještanje objekata na slici). OpenAI-jevi originalni DALL-E 2 modeli nisu objavljeni, ali je dostupan dokument koji detaljno opisuje metodu. Na temelju postojećeg opisa, neovisni istraživači pripremili su alternativnu implementaciju napisanu u Pythonu, korištenjem Pytorch okvira i distribuiranu pod licencom MIT-a.

Implementacija sustava strojnog učenja za sintezu slike na temelju tekstualnog opisaImplementacija sustava strojnog učenja za sintezu slike na temelju tekstualnog opisa

U usporedbi s prethodno objavljenom implementacijom prve generacije DALL-E-a, nova verzija pruža točnije podudaranje slike s opisom, omogućuje veći fotorealizam i omogućuje generiranje slika u višim rezolucijama. Sustav zahtijeva velike resurse za obuku modela; na primjer, obuka izvorne verzije DALL-E 2 zahtijeva 100-200 tisuća sati rada na GPU-u, tj. oko 2-4 tjedna izračuna s 256 NVIDIA Tesla V100 GPU-a.

Implementacija sustava strojnog učenja za sintezu slike na temelju tekstualnog opisa

Isti je autor također počeo razvijati proširenu verziju - DALLE2 Video, usmjerenu na sintetiziranje videa iz tekstualnog opisa. Zasebno možemo istaknuti projekt ru-dalle koji je razvila Sberbank, s otvorenom implementacijom prve generacije DALL-E, prilagođenog za prepoznavanje opisa na ruskom.

Izvor: opennet.ru

Dodajte komentar