Stability AI telah menerbitkan edisi kedua sistem pembelajaran mesin Stable Diffusion, yang mampu mensintesis dan mengubah suai imej berdasarkan templat yang dicadangkan atau penerangan teks bahasa semula jadi. Kod untuk latihan rangkaian saraf dan alat penjanaan imej ditulis dalam Python menggunakan rangka kerja PyTorch dan diterbitkan di bawah lesen MIT. Model yang sudah terlatih dibuka di bawah lesen Creative ML OpenRAIL-M yang permisif, membenarkan penggunaan komersial. Selain itu, penjana imej dalam talian demo tersedia.
Penambahbaikan utama dalam edisi baharu Stable Diffusion:
- Model baharu untuk sintesis imej berdasarkan penerangan teks telah dibuat - SD2.0-v, yang menyokong penjanaan imej dengan resolusi 768x768. Model baharu ini dilatih menggunakan koleksi LAION-5B, yang merangkumi 5.85 bilion imej dengan penerangan teks. Model ini menggunakan set parameter yang sama seperti model Stable Diffusion 1.5, tetapi berbeza dalam peralihan kepada penggunaan pengekod OpenCLIP-ViT/H yang berbeza secara asas, yang telah meningkatkan kualiti imej yang terhasil dengan ketara.
- Versi ringkas SD2.0-base telah disediakan, dilatih pada imej 256Γ256 menggunakan model ramalan hingar klasik dan menyokong penjanaan imej dengan resolusi 512Γ512.
- Adalah mungkin untuk menggunakan teknologi supersampling (Super Resolution) untuk meningkatkan resolusi imej asal tanpa mengurangkan kualiti, menggunakan penskalaan ruang dan algoritma pembinaan semula terperinci. Model pemprosesan imej yang disediakan (SD20-upscaler) menyokong empat kali zum, yang membolehkan penjanaan imej dengan resolusi 2048x2048.
- Model SD2.0-depth2img dicadangkan, dengan mengambil kira kedalaman dan susunan ruang objek. Untuk anggaran kedalaman monokular, sistem MiDaS digunakan. Model ini membolehkan anda mensintesis imej baharu menggunakan imej lain sebagai templat, yang boleh berbeza secara radikal daripada yang asal, tetapi mengekalkan komposisi dan kedalaman keseluruhan. Sebagai contoh, anda boleh menggunakan pose seseorang dalam gambar untuk membentuk watak lain dalam pose yang sama.
- Model untuk mengubah suai imej telah dikemas kini - SD 2.0-inpainting, yang membolehkan anda menggantikan dan menukar bahagian imej menggunakan gesaan teks.
- Model tersebut telah dioptimumkan untuk digunakan pada sistem konvensional dengan satu GPU.
Sumber: opennet.ru