Stable Diffusion 2.0 Зургийн синтезийн системийг нэвтрүүлсэн

Тогтвортой байдлын AI нь санал болгож буй загвар эсвэл байгалийн хэл дээрх текстийн тайлбар дээр үндэслэн зургийг нэгтгэж, өөрчлөх чадвартай Тогтвортой тархалт машин сургалтын системийн хоёр дахь хэвлэлийг нийтэллээ. Мэдрэлийн сүлжээг сургах, дүрс үүсгэх хэрэгслүүдийн кодыг PyTorch framework ашиглан Python хэл дээр бичиж, MIT лицензийн дагуу нийтэлсэн. Аль хэдийн бэлтгэгдсэн загварууд нь Creative ML OpenRAIL-M зөвшөөрлийн лицензийн дагуу нээгдсэн бөгөөд энэ нь арилжааны зориулалтаар ашиглах боломжийг олгодог. Нэмж дурдахад демо онлайн дүрс үүсгэгчийг ашиглах боломжтой.

Тогтвортой тархалтын шинэ хэвлэлд гарсан гол сайжруулалтууд:

  • Текстийн тайлбар дээр суурилсан зургийн синтезийн шинэ загвар болох SD2.0-v бүтээгдсэн бөгөөд энэ нь 768×768 нарийвчлалтай зураг үүсгэх боломжийг олгодог. Шинэ загварыг текст тайлбар бүхий 5 тэрбум зургийн LAION-5.85B цуглуулгыг ашиглан сургасан. Энэхүү загвар нь Stable Diffusion 1.5 загвартай ижил параметрүүдийг ашигладаг боловч үндсэндээ өөр OpenCLIP-ViT/H кодлогч ашиглахад шилжсэнээрээ ялгаатай бөгөөд энэ нь үүссэн зургийн чанарыг эрс сайжруулах боломжтой болсон.
    Stable Diffusion 2.0 Зургийн синтезийн системийг нэвтрүүлсэн
  • SD2.0-ийн хялбаршуулсан хувилбарыг бэлтгэж, 256×256 хэмжээтэй зураг дээр шуугианыг урьдчилан таамаглах сонгодог загварыг ашиглан сургаж, 512×512 нягтралтай зураг үүсгэхийг дэмжсэн.
    Stable Diffusion 2.0 Зургийн синтезийн системийг нэвтрүүлсэн
  • Орон зайн масштаб, нарийн ширийн зүйлийг сэргээн засварлах алгоритмуудыг ашиглан чанарыг бууруулахгүйгээр анхны зургийн нарийвчлалыг нэмэгдүүлэхийн тулд супер дээж авах (Super Resolution) технологийг ашиглах боломжийг олгодог. Өгөгдсөн дүрс боловсруулах загвар (SD20-upscaler) нь 2048×2048 нягтралтай зураг үүсгэх боломжтой XNUMX дахин томруулахыг дэмждэг.
    Stable Diffusion 2.0 Зургийн синтезийн системийг нэвтрүүлсэн
  • SD2.0-depth2img загварыг санал болгож байгаа бөгөөд энэ нь объектын гүн болон орон зайн зохицуулалтыг харгалзан үздэг. MiDaS системийг монокуляр гүний тооцоололд ашигладаг. Энэхүү загвар нь өөр зургийг загвар болгон ашиглан шинэ зургуудыг нэгтгэх боломжийг олгодог бөгөөд энэ нь анхныхаас эрс ялгаатай боловч ерөнхий найрлага, гүнийг хадгалдаг. Жишээлбэл, та зурган дээрх хүний ​​дүрийг ашиглаж, ижил дүр төрхийг бий болгож болно.
    Stable Diffusion 2.0 Зургийн синтезийн системийг нэвтрүүлсэн
    Stable Diffusion 2.0 Зургийн синтезийн системийг нэвтрүүлсэн
    Stable Diffusion 2.0 Зургийн синтезийн системийг нэвтрүүлсэн
  • Зургийг өөрчлөх загвар шинэчлэгдсэн - SD 2.0-inpainting, энэ нь танд текстийн сануулгыг ашиглан зургийн хэсгийг солих, өөрчлөх боломжийг олгодог.
    Stable Diffusion 2.0 Зургийн синтезийн системийг нэвтрүүлсэн
  • Загваруудыг нэг GPU бүхий ердийн системд ашиглахаар оновчтой болгосон.

Stable Diffusion 2.0 Зургийн синтезийн системийг нэвтрүүлсэн


Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх