Gecə fotoşəkillərində görüntü sintezi və səs-küyün azaldılması üçün maşın öyrənmə sistemləri

Stability AI, təbii dildə mətn təsviri əsasında şəkilləri sintez etmək və dəyişdirmək qabiliyyətinə malik olan Stable Diffusion maşın öyrənmə sistemi üçün hazır modelləri nəşr etdi. Modellər kommersiya istifadəsi üçün icazə verilən Creative ML OpenRAIL-M lisenziyası əsasında lisenziyalaşdırılır. Sistemi öyrətmək üçün 4000 NVIDIA A100 Ezra-1 GPU-dan ibarət klaster və mətn təsvirləri olan 5 milyard şəkil daxil olmaqla LAION-5.85B kolleksiyasından istifadə edilib. Əvvəllər neyron şəbəkəsini öyrətmək və şəkillər yaratmaq üçün alətlər üçün kod MIT lisenziyası altında açıq mənbəli idi.

Standart GPU-ları olan bir kompüterdə təcrübələrə başlamağa imkan verən hazır modelin və kifayət qədər sadə sistem tələblərinin mövcudluğu bir sıra əlaqəli layihələrin yaranmasına səbəb oldu:

  • mətn-inversiya (kod) - verilmiş simvol, obyekt və ya üslubla şəkilləri sintez etməyə imkan verən əlavə. Orijinal Sabit Diffuziyada sintez edilmiş şəkillərdəki obyektlər təsadüfi və idarə olunmazdır. Təklif olunan əlavə sizə öz vizual obyektlərinizi əlavə etməyə, onları açar sözlərə bağlamağa və sintezdə istifadə etməyə imkan verir.

    Məsələn, adi Stabil Diffuziyada sistemdən “qayıqda pişik” ilə şəkil yaratmağı xahiş edə bilərsiniz. Bundan əlavə, pişik və qayığın xüsusiyyətlərini aydınlaşdıra bilərsiniz, lakin hansı pişik və qayığın sintez ediləcəyi gözlənilməzdir. Mətn-inversiya sistemi pişiyinizin və ya qayığınızın şəklinə öyrətməyə və təsviri müəyyən bir pişik və ya qayıqla sintez etməyə imkan verir. Bənzər bir şəkildə, o, həmçinin təsvir elementlərini müəyyən obyektlərlə əvəz edə, sintez üçün vizual üslub nümunəsi qoya və konsepsiyaları təyin edə bilər (məsələn, bütün həkimlər arasından daha dəqiq və keyfiyyətli seçimdən istifadə edə bilərsiniz. istədiyiniz üslubda).

    Gecə fotoşəkillərində görüntü sintezi və səs-küyün azaldılması üçün maşın öyrənmə sistemləri

  • stabil-diffuziya-animasiya - Stabil Diffuziyada yaradılan şəkillər arasında interpolyasiya əsasında animasiyalı (hərəkətli) təsvirlərin yaradılması.
  • stabil_diffusion.openvino (kod) - güclü GPU-ları olmayan sistemlərdə təcrübə aparmağa imkan verən hesablamalar üçün yalnız CPU-dan istifadə edən Stabil Diffuziya portu. OpenVINO kitabxanasında dəstəklənən prosessor tələb olunur. Rəsmi olaraq OpenVINO AVX2, AVX-512, AVX512_BF16 və SSE genişlənmələri olan Intel prosessorları, həmçinin Raspberry Pi 4 Model B, Apple Mac mini və NVIDIA Jetson Nano lövhələri üçün plaginlər təqdim edir. Qeyri-rəsmi olaraq, AMD Ryzen prosessorlarında OpenVINO-dan istifadə etmək mümkündür.
  • sdamd AMD GPU-ları üçün portdur.
  • Video sintezinin ilkin tətbiqi.
  • stabil-diffuziya-gui, stabil-diffuziya-ui, Artbreeder Collage, diffuse-the-rest - Stabil Diffuziyadan istifadə edərək şəkillər yaratmaq üçün qrafik interfeyslər.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - Stabil Diffuziyadan istifadə edərək təsvir sintezi üçün veb interfeyslər.
  • GIMP, Figma, Blender və Photoshop ilə Stabil Diffuziya inteqrasiyası üçün plaginlər.

Əlavə olaraq, Google tərəfindən bir neçə RAW şəkillərinin məlumatlarına əsaslanaraq qaranlıqda və yüksək səs-küylü şəkillərin keyfiyyətini yaxşılaşdırmağa imkan verən RawNeRF (RAW Neural Radiance Fields) maşın öyrənmə sisteminin kodunun dərcini qeyd edə bilərik. zəif işıqlandırma. Layihə tərəfindən hazırlanmış alətlər səs-küyün aradan qaldırılması ilə yanaşı, təfərrüatları artırmağa, parıltını aradan qaldırmağa, HDR-ni sintez etməyə və fotoşəkillərdə ümumi işıqlandırmanı dəyişdirməyə, habelə müxtəlif bucaqlardan bir neçə fotoşəkildən istifadə edərək obyektlərin üçölçülü mövqeyini yenidən yaratmağa, baxış nöqtəsini dəyişdirin, diqqəti manipulyasiya edin və hərəkətli şəkillər yaradın.

Gecə fotoşəkillərində görüntü sintezi və səs-küyün azaldılması üçün maşın öyrənmə sistemləri
Gecə fotoşəkillərində görüntü sintezi və səs-küyün azaldılması üçün maşın öyrənmə sistemləri


Mənbə: opennet.ru

Добавить комментарий