Текстийн тайлбар дээр үндэслэн зургийн синтезийн машин сургалтын системийг хэрэгжүүлэх

OpenAI-ийн санал болгосон DALL-E 2 машин сургалтын системийн нээлттэй хувилбар хэвлэгдсэн бөгөөд байгалийн хэл дээрх текстийн тайлбар дээр үндэслэн бодит зураг, зургийг нэгтгэх, мөн зургийг засахын тулд байгалийн хэл дээрх командуудыг ашиглах боломжийг олгодог ( Жишээ нь, зураг дээрх объектуудыг нэмэх, устгах, зөөх ). OpenAI-ийн анхны DALL-E 2 загварууд хэвлэгдээгүй байгаа ч аргын талаар дэлгэрэнгүй бичсэн цаас бэлэн байна. Одоо байгаа тайлбар дээр үндэслэн бие даасан судлаачид Pytorch хүрээг ашиглан Python хэл дээр бичсэн өөр хувилбарыг бэлтгэж, MIT лицензийн дагуу тараасан.

Текстийн тайлбар дээр үндэслэн зургийн синтезийн машин сургалтын системийг хэрэгжүүлэхТекстийн тайлбар дээр үндэслэн зургийн синтезийн машин сургалтын системийг хэрэгжүүлэх

Өмнө нь хэвлэгдсэн DALL-E-ийн эхний үеийн хэрэгжилттэй харьцуулахад шинэ хувилбар нь дүрсийг тайлбартай илүү нарийвчлалтай тааруулж, илүү их фотореализм хийх боломжийг олгож, илүү өндөр нарийвчлалтай зураг үүсгэх боломжийг олгодог. Систем нь загварыг сургахад их хэмжээний нөөц шаарддаг; жишээлбэл, DALL-E 2-ийн анхны хувилбарыг сургахад GPU дээр 100-200 мянган цаг ажиллах шаардлагатай. 2 NVIDIA Tesla V4 GPU-тай ойролцоогоор 256-100 долоо хоног тооцоолсон.

Текстийн тайлбар дээр үндэслэн зургийн синтезийн машин сургалтын системийг хэрэгжүүлэх

Мөн ижил зохиогч нь текстийн тайлбараас видео нэгтгэх зорилготой DALLE2 видео өргөтгөсөн хувилбарыг боловсруулж эхэлсэн. Орос хэл дээрх тайлбарыг танихад тохируулсан эхний үеийн DALL-E-ийг нээлттэй хэрэгжүүлсэн Сбербанкны боловсруулсан ру-далле төслийг тус тусад нь тэмдэглэж болно.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх