Stability AI publicou a segunda edición do sistema de aprendizaxe automática Stable Diffusion, que é capaz de sintetizar e modificar imaxes baseándose nun patrón suxerido ou na descrición do texto en linguaxe natural. O código de ferramentas para o adestramento de redes neuronais e a xeración de imaxes está escrito en Python usando o marco PyTorch e publicado baixo a licenza MIT. Os modelos xa adestrados están abertos baixo a licenza permisiva Creative ML OpenRAIL-M, que permite o seu uso comercial. Ademais, hai dispoñible un xerador de imaxes de demostración en liña.
Melloras clave na nova edición de Stable Diffusion:
- Creouse un novo modelo para a síntese de imaxes baseado na descrición do texto, SD2.0-v, que admite a xeración de imaxes cunha resolución de 768×768. O novo modelo adestrouse utilizando a colección LAION-5B de 5.85 millóns de imaxes con descricións de texto. O modelo usa o mesmo conxunto de parámetros que o modelo Stable Diffusion 1.5, pero difire pola transición ao uso dun codificador OpenCLIP-ViT/H fundamentalmente diferente, o que permitiu mellorar significativamente a calidade das imaxes resultantes.
- Preparouse unha versión simplificada da base SD2.0, adestrada en imaxes de 256×256 utilizando o modelo clásico de predición de ruído e que admite a xeración de imaxes cunha resolución de 512×512.
- Ofrécese a posibilidade de utilizar a tecnoloxía de supermostraxe (Super Resolution) para aumentar a resolución da imaxe orixinal sen reducir a calidade, utilizando algoritmos de escalado espacial e reconstrución de detalles. O modelo de procesamento de imaxes proporcionado (SD20-upscaler) admite a escala 2048x, que pode xerar imaxes cunha resolución de 2048 × XNUMX.
- Proponse o modelo SD2.0-depth2img, que ten en conta a profundidade e a disposición espacial dos obxectos. O sistema MiDaS úsase para a estimación da profundidade monocular. O modelo permítelle sintetizar novas imaxes usando outra imaxe como modelo, que pode ser radicalmente diferente da orixinal, pero conservando a composición e profundidade xerais. Por exemplo, podes usar a pose dunha persoa nunha foto para formar outro personaxe na mesma pose.
- Actualizouse o modelo para modificar imaxes: SD 2.0-inpainting, que che permite substituír e cambiar partes dunha imaxe mediante indicacións de texto.
- Os modelos optimizáronse para o seu uso en sistemas convencionais cunha única GPU.
Fonte: opennet.ru