سیستم های یادگیری ماشین برای سنتز تصویر و کاهش نویز در عکس های شبانه

هوش مصنوعی پایداری مدل‌های آماده‌ای را برای سیستم یادگیری ماشینی Stable Diffusion منتشر کرده است که می‌تواند تصاویر را بر اساس توضیحات متنی به زبان طبیعی ترکیب و اصلاح کند. مدل ها تحت مجوز مجاز Creative ML OpenRAIL-M برای استفاده تجاری مجوز دارند. برای آموزش این سیستم، خوشه ای از 4000 پردازنده گرافیکی NVIDIA A100 Ezra-1 و مجموعه LAION-5B، شامل 5.85 میلیارد تصویر با توضیحات متنی، استفاده شد. پیش از این، کد ابزارهای آموزش شبکه عصبی و تولید تصاویر تحت مجوز MIT منبع باز بود.

در دسترس بودن یک مدل آماده و الزامات سیستم نسبتاً متوسطی که به فرد اجازه می‌دهد آزمایش‌ها را روی رایانه شخصی با GPUهای استاندارد شروع کند، منجر به ظهور تعدادی پروژه مرتبط شده است:

  • متن وارونگی (کد) - افزونه ای که به شما امکان می دهد تصاویر را با یک کاراکتر، شی یا سبک معین ترکیب کنید. در انتشار اولیه پایدار، اشیاء در تصاویر سنتز شده تصادفی و غیرقابل کنترل هستند. افزودنی پیشنهادی به شما امکان می دهد اشیاء بصری خود را اضافه کنید، آنها را به کلمات کلیدی متصل کنید و از آنها در ترکیب استفاده کنید.

    برای مثال، در Stable Diffusion معمولی می‌توانید از سیستم بخواهید که تصویری با «گربه در قایق» ایجاد کند. علاوه بر این، می توانید ویژگی های گربه و قایق را روشن کنید، اما غیرقابل پیش بینی است که کدام گربه و قایق سنتز شوند. وارونگی متنی به شما این امکان را می دهد که سیستم را بر روی تصویری از گربه یا قایق خود آموزش دهید و تصویر را با یک گربه یا قایق خاص ترکیب کنید. به روشی مشابه، همچنین می‌تواند عناصر تصویر را با اشیاء خاصی جایگزین کند، نمونه‌ای از یک سبک بصری برای سنتز قرار دهد، و مفاهیم را مشخص کند (به عنوان مثال، از طیف وسیعی از پزشکان، می‌توانید از انتخاب دقیق‌تر و با کیفیت‌تری استفاده کنید. به سبک دلخواه).

    سیستم های یادگیری ماشین برای سنتز تصویر و کاهش نویز در عکس های شبانه

  • stable-diffusion-animation - ایجاد تصاویر متحرک (متحرک) بر اساس درون یابی بین تصاویر تولید شده در Stable Diffusion.
  • stable_diffusion.openvino (کد) - یک پورت Stable Diffusion، که فقط از CPU برای محاسبات استفاده می کند، که امکان آزمایش بر روی سیستم های بدون GPU قدرتمند را فراهم می کند. به پردازنده ای نیاز دارد که در کتابخانه OpenVINO پشتیبانی می شود. به طور رسمی، OpenVINO پلاگین هایی را برای پردازنده های اینتل با پسوندهای AVX2، AVX-512، AVX512_BF16 و SSE و همچنین برای Raspberry Pi 4 Model B، Apple Mac mini و بردهای NVIDIA Jetson Nano ارائه می دهد. به طور غیر رسمی، امکان استفاده از OpenVINO در پردازنده های AMD Ryzen وجود دارد.
  • sdamd یک پورت برای پردازنده های گرافیکی AMD است.
  • اجرای اولیه سنتز ویدئو.
  • stable-diffusion-gui, stable-diffusion-ui, artbreeder collage, diffuse-the-rest - رابط های گرافیکی برای تولید تصاویر با استفاده از Stable Diffusion.
  • beta.dreamstudio.ai، Hugging Face Spaces، hlky Stable Diffusion WebUI - رابط های وب برای سنتز تصویر با استفاده از Stable Diffusion.
  • پلاگین هایی برای ادغام Stable Diffusion با GIMP، Figma، Blender و Photoshop.

علاوه بر این، می‌توانیم به انتشار کد سیستم یادگیری ماشینی RawNeRF (میدان‌های تابشی عصبی RAW) توسط گوگل اشاره کنیم که بر اساس داده‌های چند تصویر RAW، امکان بهبود کیفیت تصاویر بسیار پر نویز گرفته‌شده در تاریکی و در تاریکی را فراهم می‌کند. روشنایی ضعیف علاوه بر حذف نویز، ابزارهای توسعه یافته توسط این پروژه امکان افزایش جزئیات، حذف تابش خیره کننده، سنتز HDR و تغییر نور کلی در عکس ها و همچنین بازسازی موقعیت سه بعدی اشیا را با استفاده از چندین عکس از زوایای مختلف فراهم می کند. تغییر زاویه دید، دستکاری فوکوس و تولید تصاویر متحرک.

سیستم های یادگیری ماشین برای سنتز تصویر و کاهش نویز در عکس های شبانه
سیستم های یادگیری ماشین برای سنتز تصویر و کاهش نویز در عکس های شبانه


منبع: opennet.ru

اضافه کردن نظر