Koneoppimisjärjestelmän toteutus tekstikuvaukseen perustuvaa kuvasynteesiä varten

OpenAI:n ehdottama koneoppimisjärjestelmän DALL-E 2 avoin toteutus on julkaistu, ja sen avulla voit syntetisoida realistisia kuvia ja maalauksia luonnollisella kielellä olevaan tekstikuvaukseen sekä käyttää luonnollisella kielellä olevia komentoja kuvien muokkaamiseen ( esimerkiksi lisätä, poistaa tai siirtää objekteja kuvassa ). OpenAI:n alkuperäisiä DALL-E 2 -malleja ei ole julkaistu, mutta menetelmää käsittelevä paperi on saatavilla. Riippumattomat tutkijat ovat laatineet olemassa olevan kuvauksen perusteella vaihtoehtoisen Python-kielellä kirjoitetun, Pytorch-kehystä käyttävän ja MIT-lisenssin alaisena jaetun toteutuksen.

Koneoppimisjärjestelmän toteutus tekstikuvaukseen perustuvaa kuvasynteesiä vartenKoneoppimisjärjestelmän toteutus tekstikuvaukseen perustuvaa kuvasynteesiä varten

Verrattuna aiemmin julkaistuun ensimmäisen sukupolven DALL-E:n toteutukseen, uusi versio tarjoaa kuvan täsmällisemmän vastaavuuden kuvaukseen, mahdollistaa suuremman fotorealismin ja mahdollistaa kuvien luomisen korkeammalla resoluutiolla. Järjestelmä vaatii suuria resursseja mallin kouluttamiseen, esimerkiksi DALL-E 2:n alkuperäisen version kouluttaminen vaatii 100-200 tuhatta tuntia laskentaa GPU:lla, ts. noin 2-4 viikkoa laskelmia 256 NVIDIA Tesla V100 -grafiikkasuorittimella.

Koneoppimisjärjestelmän toteutus tekstikuvaukseen perustuvaa kuvasynteesiä varten

Sama kirjoittaja alkoi myös kehittää laajennettua versiota - DALLE2 Videota, jonka tarkoituksena oli syntetisoida video tekstikuvauksesta. Erikseen voidaan mainita Sberbankin kehittämä ru-dalle-projekti, jossa on ensimmäisen sukupolven DALL-E avoin toteutus, joka on mukautettu tunnistamaan venäjänkielisiä kuvauksia.

Lähde: opennet.ru

Lisää kommentti