Системаҳои омӯзиши мошинсозӣ барои синтези тасвирҳо ва кам кардани садо дар аксҳои шабона

Stability AI моделҳои омодаро барои системаи омӯзиши мошини Stable Diffusion нашр кардааст, ки қодиранд тасвирҳоро дар асоси тавсифи матн бо забони табиӣ синтез ва тағир диҳанд. Моделҳо дар асоси иҷозатномаи Creative ML OpenRAIL-M барои истифодаи тиҷоратӣ иҷозатнома доранд. Барои омӯзиши система, кластери 4000 NVIDIA A100 Ezra-1 GPU ва коллексияи LAION-5B, аз ҷумла 5.85 миллиард тасвирҳо бо тавсифи матн истифода шуданд. Пештар, рамзи асбобҳо барои омӯзиши шабакаи нейронӣ ва тавлиди тасвирҳо дар асоси иҷозатномаи MIT кушода буд.

Мавҷудияти модели омода ва талаботи хеле хоксоронаи система, ки имкон медиҳад, ки таҷрибаҳо дар компютер бо GPU-ҳои стандартӣ оғоз карда шаванд, боиси пайдоиши як қатор лоиҳаҳои марбута гардид:

  • матн-инверсионалӣ (код) - изофа, ки ба шумо имкон медиҳад, ки тасвирҳоро бо аломат, объект ё услуби додашуда синтез кунед. Дар Диффузияи аслии устувор, объектҳо дар тасвирҳои синтезшуда тасодуфӣ ва идоранашаванда мебошанд. Иловаи пешниҳодшуда ба шумо имкон медиҳад, ки объектҳои визуалии худро илова кунед, онҳоро ба калимаҳои калидӣ пайваст кунед ва онҳоро дар синтез истифода баред.

    Масалан, дар Диффузияи муқаррарии устувор шумо метавонед аз система хоҳиш кунед, ки бо "гурба дар қаиқ" тасвир эҷод кунад. Илова бар ин, шумо метавонед хусусиятҳои гурба ва қаиқро равшан кунед, аммо пешгӯинашаванда аст, ки кадом гурба ва қаиқ синтез карда мешавад. Инверсияи матнӣ ба шумо имкон медиҳад, ки системаро дар тасвири гурба ё қаиқатон омӯзед ва тасвирро бо як гурба ё қаиқи мушаххас синтез кунед. Ба ҳамин монанд, он инчунин метавонад унсурҳои тасвирро бо объектҳои муайян иваз кунад, намунаи услуби визуалиро барои синтез нишон диҳад ва консепсияҳоро муайян кунад (масалан, аз тамоми табибон, шумо метавонед интихоби дақиқтар ва баландсифатро истифода баред. бо услуби дилхоҳ).

    Системаҳои омӯзиши мошинсозӣ барои синтези тасвирҳо ва кам кардани садо дар аксҳои шабона

  • устувор-диффузия-аниматсия - эҷоди тасвирҳои мутаҳаррикӣ (ҳаракаткунанда) дар асоси интерполясия байни расмҳои дар Диффузияи устувор тавлидшуда.
  • stable_diffusion.openvino (рамз) - бандари Диффузияи устувор, ки танҳо CPU-ро барои ҳисобҳо истифода мебарад, ки имкон медиҳад таҷриба дар системаҳои бе GPU-ҳои пурқувват анҷом дода шавад. Протсессори дар китобхонаи OpenVINO дастгирӣшавандаро талаб мекунад. OpenVINO расман плагинҳоро барои протсессори Intel бо васеъшавии AVX2, AVX-512, AVX512_BF16 ва SSE, инчунин барои Raspberry Pi 4 Model B, Apple Mac mini ва NVIDIA Jetson Nano тахтаҳо пешкаш мекунад. Ба таври ғайрирасмӣ метавон OpenVINO-ро дар протсессори AMD Ryzen истифода бурд.
  • sdard порт барои GPUs AMD аст.
  • Татбиқи ибтидоии синтези видео.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - интерфейсҳои графикӣ барои тавлиди тасвирҳо бо истифода аз Диффузияи устувор.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - интерфейсҳои веб барои синтези тасвир бо истифода аз Диффузияи устувор.
  • Плагинҳо барои ҳамгироии Диффузияи устувор бо GIMP, Figma, Blender ва Photoshop.

Илова бар ин, мо метавонем аз ҷониби Google интишори рамзи системаи омӯзиши мошини RawNeRF (RAW Neural Radiance Fields)-ро қайд кунем, ки имкон медиҳад, дар асоси маълумот аз якчанд тасвирҳои RAW, сифати тасвирҳои хеле пурғавғо дар торикӣ ва дар торикӣ гирифташуда беҳтар карда шавад. равшании бад. Илова ба рафъи садо, асбобҳои таҳиякардаи лоиҳа имкон медиҳанд, ки тафсилотро афзоиш диҳанд, дурахшҳоро нест кунанд, HDR-ро синтез кунанд ва равшании умумии аксҳоро тағир диҳанд, инчунин мавқеъи сеченакаи объектҳоро бо истифода аз якчанд аксҳо аз кунҷҳои гуногун барқарор кунанд, тағир додани нуқтаи назар, коркарди фокус ва эҷоди тасвирҳои ҳаракаткунанда.

Системаҳои омӯзиши мошинсозӣ барои синтези тасвирҳо ва кам кардани садо дар аксҳои шабона
Системаҳои омӯзиши мошинсозӣ барои синтези тасвирҳо ва кам кардани садо дар аксҳои шабона


Манбаъ: opennet.ru

Илова Эзоҳ