Шөнийн зураг дээрх дүрсийг нэгтгэх, дуу чимээг бууруулах машин сургалтын систем

Stability AI нь байгалийн хэл дээрх текстийн тайлбар дээр үндэслэн зургийг нэгтгэж, өөрчлөх боломжтой Stable Diffusion машин сургалтын системдээ зориулж бэлэн загваруудыг нийтлэв. Загварууд нь Creative ML OpenRAIL-M зөвшөөрлийн лицензийн дагуу нээлттэй эх сурвалжтай бөгөөд арилжааны зориулалтаар ашиглахыг зөвшөөрдөг. Уг системийг 4000 NVIDIA A100 Ezra-1 GPU болон текстийн тайлбар бүхий 5.85 тэрбум зураг агуулсан LAION-5B мэдээллийн багцын кластер ашиглан сургасан. Мэдрэлийн сүлжээг сургах, зураг үүсгэх хэрэгслүүд нь өмнө нь MIT лицензийн дагуу нээлттэй эх сурвалжтай байсан.

Стандарт GPU бүхий компьютер дээр туршилт хийх боломжийг олгодог бэлэн загвар, харьцангуй энгийн системийн шаардлагууд байгаа нь хэд хэдэн холбогдох төслүүдийг бий болгоход хүргэсэн.

  • textual-inversion (код) нь өгөгдсөн тэмдэгт, объект, хэв маягтай зургийг нэгтгэх боломжийг олгодог нэмэлт хэрэгсэл юм. Анхны тогтвортой тархалтад нийлэгжүүлсэн зураг дээрх объектууд санамсаргүй бөгөөд хяналтгүй байдаг. Энэхүү нэмэлт нь танд өөрийн харааны объектуудыг нэмж, тэдгээрийг түлхүүр үгстэй холбож, тэдгээрийг нэгтгэхэд ашиглах боломжийг олгодог.

    Жишээлбэл, стандарт тогтвортой тархалт дээр та системээс "завь дахь муур" дүрсийг үүсгэхийг хүсч болно. Та муур, завины шинж чанарыг цаашид тодорхойлж болно, гэхдээ яг нийлэгжсэн муур, завь нь урьдчилан таамаглах аргагүй юм. Текстийн урвуу байдал нь системийг өөрийн муур эсвэл завины зураг дээр сургах, дараа нь тодорхой муур эсвэл завины зургийг нэгтгэх боломжийг олгодог. Үүний нэгэн адил, энэ нь зургийн элементүүдийг тодорхой объектоор сольж, синтезийн харааны хэв маягийн жишээг тодорхойлж, үзэл баримтлалыг боловсронгуй болгох боломжтой (жишээлбэл, олон төрлийн эмч нараас та хүссэн загвараараа илүү нарийвчлалтай, өндөр чанартай дээжийг сонгож болно).

    Шөнийн зураг дээрх дүрсийг нэгтгэх, дуу чимээг бууруулах машин сургалтын систем
  • stable-diffusion-animation — Тогтвортой тархалтад үүсгэсэн зургуудын хоорондын интерполяц дээр үндэслэн хөдөлгөөнт (хөдөлгөөнт) дүрс үүсгэх.
  • stable_diffusion.openvino (код) нь Тогтвортой Diffusion порт бөгөөд тооцоололд зөвхөн CPU ашигладаг бөгөөд хүчирхэг GPU-гүй систем дээр туршилт хийх боломжийг олгодог. OpenVINO номын сангаар дэмжигдсэн процессор шаардлагатай. Албан ёсоор OpenVINO нь AVX2, AVX-512, AVX512_BF16, SSE өргөтгөлтэй Intel процессорууд болон Raspberry Pi 4 Model B, Apple Mac mini, NVIDIA Jetson Nano хавтангуудад зориулсан залгаасуудыг өгдөг. Албан бусаар OpenVINO-г AMD Ryzen процессор дээр бас ашиглаж болно.
  • sdamd нь AMD GPU-д зориулсан порт юм.
  • Видео синтезийн эхний хэрэгжилт.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest — Stable Diffusion ашиглан зураг үүсгэх график интерфейс.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI — Stable Diffusion ашиглан зураг нэгтгэх вэб интерфейс.
  • Тогтвортой диффузийг GIMP, Figma, Blender, Photoshop програмуудтай нэгтгэх залгаасууд.

Нэмж дурдахад Google нь RawNeRF (RAW Neural Radiance Fields) машин сургалтын системийн кодыг нийтэлсэн бөгөөд энэ нь олон RAW зургийн өгөгдлийг ашигладаг бөгөөд харанхуй, гэрэл багатай нөхцөлд авсан өндөр шуугиантай зургийн чанарыг сайжруулдаг. Дуу чимээг бууруулахаас гадна төслийн хэрэгслүүд нь хэрэглэгчдэд нарийвчилсан мэдээллийг сайжруулах, хурц гэрлийг арилгах, HDR-ийг нэгтгэх, гэрэл зургийн ерөнхий гэрэлтүүлгийг өөрчлөх боломжийг олгодог. Тэд мөн объектын гурван хэмжээст байрлалыг сэргээх, харах өнцгийг өөрчлөх, фокусыг өөрчлөх, хөдөлгөөнт дүрс үүсгэхийн тулд өөр өөр өнцгөөс олон зургийг ашиглах боломжтой.

Шөнийн зураг дээрх дүрсийг нэгтгэх, дуу чимээг бууруулах машин сургалтын систем
Шөнийн зураг дээрх дүрсийг нэгтгэх, дуу чимээг бууруулах машин сургалтын систем
Видео тоглуулна уу
Видео тоглуулна уу


Эх сурвалж: opennet.ru
DDoS хамгаалалт, VPS VDS сервер бүхий сайтуудад найдвартай хостинг худалдаж аваарай 🔥 DDoS хамгаалалттай, VPS VDS сервертэй найдвартай вэбсайт хостинг худалдаж аваарай | ProHoster