Stability AI табигый тилдеги тексттин сыпаттамасынын негизинде сүрөттөрдү синтездөө жана өзгөртүүгө жөндөмдүү Stable Diffusion машина үйрөнүү системасы үчүн даяр моделдерди жарыялады. Моделдер коммерциялык колдонуу үчүн уруксат берүүчү Creative ML OpenRAIL-M лицензиясынын негизинде лицензияланган. Системаны үйрөтүү үчүн 4000 NVIDIA A100 Ezra-1 GPU кластери жана LAION-5B коллекциясы, анын ичинде 5.85 миллиард сүрөт тексттик сүрөттөмөлөрү менен колдонулган. Мурда нейрондук тармакты окутуу жана сүрөттөрдү түзүү үчүн куралдардын коду MIT лицензиясы боюнча ачык булактан алынган.
Даяр моделдин болушу жана стандарттуу GPU менен компьютерде эксперименттерди баштоого мүмкүндүк берген жөнөкөй система талаптары бир катар тиешелүү долбоорлордун пайда болушуна алып келди:
- Тексттик-инверсия (код) - берилген белги, объект же стили бар сүрөттөрдү синтездөөгө мүмкүндүк берүүчү кошумча. Оригиналдуу Туруктуу диффузияда синтезделген сүрөттөрдөгү объекттер туш келди жана башкарылбайт. Сунушталган кошумча визуалдык объектилериңизди кошууга, аларды ачкыч сөздөргө байлап, аларды синтезде колдонууга мүмкүндүк берет.
Мисалы, кадимки Туруктуу диффузияда сиз системадан "кайыктагы мышыктын" сүрөтүн түзүүнү сурансаңыз болот. Кошумчалай кетсек, мышык менен кайыктын мүнөздөмөлөрүн тактоого болот, бирок кайсы мышык менен кайыктын синтезделерин алдын ала айтуу мүмкүн эмес. Тексттик-инверсия сиздин мышыктын же кайыктын сүрөтү боюнча системаны үйрөтүүгө жана белгилүү бир мышык же кайык менен сүрөттү синтездөөгө мүмкүндүк берет. Ушундай эле жол менен, ал ошондой эле белгилүү бир объектилер менен сүрөт элементтерин алмаштыра алат, синтез үчүн визуалдык стилдин үлгүсүн көрсөтүп, түшүнүктөрдү көрсөтүүгө болот (мисалы, дарыгерлердин ар түрдүү, сиз так жана сапаттуу тандоо колдоно аласыз. каалаган стилде).

- туруктуу-диффузия-анимация - Туруктуу диффузияда түзүлгөн сүрөттөрдүн ортосундагы интерполяциянын негизинде анимацияланган (кыймылдуу) сүрөттөрдү түзүү.
- stable_diffusion.openvino (код) - туруктуу диффузиянын порту, ал эсептөөлөр үчүн CPU гана колдонот, ал күчтүү GPU'лары жок системаларда эксперимент жүргүзүүгө мүмкүндүк берет. OpenVINO китепканасында колдоого алынган процессорду талап кылат. OpenVINO расмий түрдө AVX2, AVX-512, AVX512_BF16 жана SSE кеңейтүүлөрү бар Intel процессорлору үчүн, ошондой эле Raspberry Pi 4 Model B, Apple Mac mini жана NVIDIA Jetson Nano такталары үчүн плагиндерди камсыз кылат. Бейрасмий түрдө OpenVINOну AMD Ryzen процессорлорунда колдонууга болот.
- sdamd AMD GPU үчүн порт болуп саналат.
- Видео синтезинин алгачкы ишке ашырылышы.
- туруктуу-диффузия-gui, туруктуу-диффузия-ui, Artbreeder Collage, diffuse-the-rest - Туруктуу диффузияны колдонуу менен сүрөттөрдү түзүү үчүн графикалык интерфейстер.
- beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - Stabil Diffusion аркылуу сүрөттөрдү синтездөө үчүн веб-интерфейстер.
- GIMP, Figma, Blender жана Photoshop менен туруктуу диффузияны интеграциялоо үчүн плагиндер.
Кошумчалай кетсек, Google тарабынан RawNeRF (RAW Neural Radiance Fields) машиналык үйрөнүү тутумунун кодун жарыялоону белгилей кетсек болот, ал бир нече RAW сүрөттөрүнүн маалыматтарынын негизинде караңгыда жана ызы-чуу түшкөн сүрөттөрдүн сапатын жакшыртууга мүмкүндүк берет. начар жарыктандыруу. Долбоор тарабынан иштелип чыккан инструменттер ызы-чууну жок кылуудан тышкары, деталдарды көбөйтүүгө, жаркыраган көрүнүштөрдү жок кылууга, HDR синтезине жана фотосүрөттөрдөгү жалпы жарыкты өзгөртүүгө, ошондой эле ар кайсы бурчтан бир нече фотосүрөттөрдү колдонуу менен объекттердин үч өлчөмдүү абалын калыбына келтирүүгө, көз карашты өзгөртүү, фокусту башкаруу жана кыймылдуу сүрөттөрдү түзүү.




Source: opennet.ru

