Sistem pembelajaran mesin untuk sintesis imej dan pengurangan hingar dalam foto malam

Stability AI telah menerbitkan model siap sedia untuk sistem pembelajaran mesin Stable Diffusion, yang mampu mensintesis dan mengubah suai imej berdasarkan penerangan teks dalam bahasa semula jadi. Model dilesenkan di bawah lesen Creative ML OpenRAIL-M yang permisif untuk kegunaan komersial. Untuk melatih sistem, sekumpulan 4000 NVIDIA A100 Ezra-1 GPU dan koleksi LAION-5B, termasuk 5.85 bilion imej dengan penerangan teks, telah digunakan. Sebelum ini, kod untuk alat untuk melatih rangkaian saraf dan menjana imej adalah sumber terbuka di bawah lesen MIT.

Ketersediaan model siap pakai dan keperluan sistem yang agak sederhana yang membolehkan seseorang memulakan percubaan pada PC dengan GPU standard telah membawa kepada kemunculan beberapa projek berkaitan:

  • penyongsangan tekstual (kod) - alat tambah yang membolehkan anda mensintesis imej dengan aksara, objek atau gaya tertentu. Dalam Stable Diffusion yang asal, objek dalam imej yang disintesis adalah rawak dan tidak boleh dikawal. Alat tambah yang dicadangkan membolehkan anda menambah objek visual anda sendiri, mengikatnya pada kata kunci dan menggunakannya dalam sintesis.

    Contohnya, dalam Stable Diffusion biasa anda boleh meminta sistem menjana imej dengan "kucing dalam bot". Selain itu, anda boleh menjelaskan ciri kucing dan bot, tetapi tidak dapat diramalkan kucing dan bot mana yang akan disintesis. Penyongsangan teks membolehkan anda melatih sistem pada imej kucing atau bot anda dan mensintesis imej dengan kucing atau bot tertentu. Dengan cara yang sama, ia juga boleh menggantikan elemen imej dengan objek tertentu, menetapkan contoh gaya visual untuk sintesis dan menentukan konsep (contohnya, daripada pelbagai jenis doktor, anda boleh menggunakan pilihan yang lebih tepat dan berkualiti tinggi. mengikut gaya yang dikehendaki).

    Sistem pembelajaran mesin untuk sintesis imej dan pengurangan hingar dalam foto malam

  • stable-diffusion-animasi - penciptaan imej animasi (bergerak) berdasarkan interpolasi antara gambar yang dijana dalam Stabil Diffusion.
  • stable_diffusion.openvino (kod) - pelabuhan Stable Diffusion, yang hanya menggunakan CPU untuk pengiraan, yang membenarkan percubaan pada sistem tanpa GPU berkuasa. Memerlukan pemproses yang disokong dalam perpustakaan OpenVINO. Secara rasmi, OpenVINO menyediakan pemalam untuk pemproses Intel dengan sambungan AVX2, AVX-512, AVX512_BF16 dan SSE, serta untuk papan Raspberry Pi 4 Model B, Apple Mac mini dan NVIDIA Jetson Nano. Secara tidak rasmi, OpenVINO boleh digunakan pada pemproses AMD Ryzen.
  • sdamd ialah port untuk GPU AMD.
  • Pelaksanaan awal sintesis video.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - antara muka grafik untuk menjana imej menggunakan Stabil Diffusion.
  • beta.dreamstudio.ai, Memeluk Ruang Wajah, hlky Stable Diffusion WebUI - antara muka web untuk sintesis imej menggunakan Stable Diffusion.
  • Pemalam untuk menyepadukan Stable Diffusion dengan GIMP, Figma, Blender dan Photoshop.

Selain itu, kita boleh ambil perhatian penerbitan Google kod sistem pembelajaran mesin RawNeRF (RAW Neural Radiance Fields), yang membolehkan, berdasarkan data daripada beberapa imej RAW, meningkatkan kualiti imej yang sangat bising yang diambil dalam gelap dan dalam. pencahayaan yang kurang baik. Di samping menghapuskan bunyi bising, alat yang dibangunkan oleh projek memungkinkan untuk meningkatkan perincian, menghilangkan silau, mensintesis HDR dan menukar pencahayaan keseluruhan dalam gambar, serta mencipta semula kedudukan objek tiga dimensi menggunakan beberapa gambar dari sudut yang berbeza, alihkan sudut pandangan, manipulasi fokus dan jana gambar bergerak.

Sistem pembelajaran mesin untuk sintesis imej dan pengurangan hingar dalam foto malam
Sistem pembelajaran mesin untuk sintesis imej dan pengurangan hingar dalam foto malam


Sumber: opennet.ru

Tambah komen