Шөнийн зураг дээрх дүрсийг нэгтгэх, дуу чимээг бууруулах машин сургалтын систем

Stability AI нь байгалийн хэл дээрх текстийн тайлбар дээр үндэслэн зургийг нэгтгэх, өөрчлөх чадвартай Stable Diffusion машин сургалтын системийн бэлэн загваруудыг нийтлэв. Загварууд нь арилжааны зориулалтаар ашиглах зөвшөөрөлтэй Creative ML OpenRAIL-M лицензийн дагуу лицензтэй. Системийг сургахын тулд 4000 NVIDIA A100 Ezra-1 GPU-ийн кластер, LAION-5B цуглуулга, текстийн тайлбар бүхий 5.85 тэрбум зургийг ашигласан. Өмнө нь мэдрэлийн сүлжээг сургах, зураг үүсгэх хэрэгслүүдийн кодыг MIT лицензийн дагуу нээлттэй эх сурвалжаас авдаг байсан.

Стандарт GPU бүхий компьютер дээр туршилт хийх боломжийг олгодог бэлэн загвар, нэлээд даруухан системийн шаардлагууд байгаа нь хэд хэдэн холбогдох төслүүдийг бий болгоход хүргэсэн.

  • текстийн урвуу (код) - өгөгдсөн тэмдэгт, объект эсвэл хэв маягтай зургийг нэгтгэх боломжийг олгодог нэмэлт хэрэгсэл. Анхны Тогтвортой тархалтад нэгтгэсэн зураг дээрх объектууд санамсаргүй бөгөөд хяналтгүй байдаг. Санал болгож буй нэмэлт нь танд өөрийн харааны объектуудыг нэмж, тэдгээрийг түлхүүр үгтэй холбож, тэдгээрийг нэгтгэн ашиглах боломжийг олгоно.

    Жишээлбэл, тогтмол тогтвортой тархалт дээр та системээс "завь дахь муур" дүрсийг үүсгэхийг хүсч болно. Нэмж дурдахад та муур, завины шинж чанарыг тодруулж болох боловч ямар муур, завь нийлэгжихийг урьдчилан тааварлах боломжгүй юм. Текстийн урвуу нь таны муур эсвэл завины зураг дээр системийг сургах, тодорхой муур эсвэл завьтай дүрсийг нэгтгэх боломжийг олгодог. Үүнтэй адилаар энэ нь зургийн элементүүдийг тодорхой объектоор сольж, синтезийн харааны хэв маягийн жишээг үзүүлж, үзэл баримтлалыг зааж өгч болно (жишээлбэл, олон төрлийн эмч нараас та илүү нарийвчлалтай, өндөр чанартай сонголтыг ашиглаж болно. хүссэн хэв маягаар).

    Шөнийн зураг дээрх дүрсийг нэгтгэх, дуу чимээг бууруулах машин сургалтын систем

  • stable-diffusion-animation - Stable Diffusion-д үүсгэсэн зургуудын хоорондын интерполяцид тулгуурлан хөдөлгөөнт (хөдөлгөөнт) дүрс үүсгэх.
  • stable_diffusion.openvino (код) - Тогтвортой тархалтын порт бөгөөд тооцоололд зөвхөн CPU ашигладаг бөгөөд энэ нь хүчирхэг GPU-гүй систем дээр туршилт хийх боломжийг олгодог. OpenVINO номын санд дэмждэг процессор шаардлагатай. Албан ёсоор OpenVINO нь AVX2, AVX-512, AVX512_BF16 болон SSE өргөтгөлтэй Intel процессорууд, мөн Raspberry Pi 4 Model B, Apple Mac mini болон NVIDIA Jetson Nano хавтангуудад зориулсан залгаасуудыг өгдөг. Албан бусаар OpenVINO-г AMD Ryzen процессор дээр ашиглах боломжтой.
  • sdamd нь AMD GPU-д зориулсан порт юм.
  • Видео синтезийн анхны хэрэгжилт.
  • stable-diffusion-gui, stabil-diffusion-ui, Artbreeder Collage, diffuse-the-rest - Тогтвортой тархалтыг ашиглан зураг үүсгэх график интерфэйсүүд.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - Stable Diffusion ашиглан дүрсийг нэгтгэх вэб интерфейс.
  • Тогтвортой тархалтыг GIMP, Figma, Blender, Photoshop програмуудтай нэгтгэх нэмэлт өргөтгөлүүд.

Нэмж дурдахад, Google-ээс RawNeRF (RAW Neural Radiance Fields) машин сургалтын системийн кодыг нийтэлсэн болохыг бид тэмдэглэж болно. Энэ нь хэд хэдэн RAW зургийн өгөгдөл дээр үндэслэн харанхуй болон орчинд авсан өндөр шуугиантай зургийн чанарыг сайжруулах боломжийг олгодог. гэрэлтүүлэг муу. Төслийн боловсруулсан хэрэгслүүд нь дуу чимээг арилгахаас гадна нарийвчилсан мэдээллийг нэмэгдүүлэх, хурц гэрлийг арилгах, HDR-ийг нэгтгэх, гэрэл зургийн ерөнхий гэрэлтүүлгийг өөрчлөх, мөн янз бүрийн өнцгөөс хэд хэдэн гэрэл зургийг ашиглан объектын гурван хэмжээст байрлалыг сэргээх, харах өнцгийг өөрчлөх, анхаарал төвлөрүүлэх, хөдөлгөөнт зураг үүсгэх.

Шөнийн зураг дээрх дүрсийг нэгтгэх, дуу чимээг бууруулах машин сургалтын систем
Шөнийн зураг дээрх дүрсийг нэгтгэх, дуу чимээг бууруулах машин сургалтын систем


Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх