A NVIDIA publicou o código-fonte do sistema de aprendizado de máquina SPADE (GauGAN), que pode sintetizar paisagens realistas a partir de esboços, bem como modelos não treinados associados ao projeto. O sistema foi demonstrado em março na conferência GTC 2019, mas o código só foi publicado ontem. Os empreendimentos são abertos sob licença gratuita CC BY-NC-SA 4.0 (Creative Commons Attribution-NonCommercial-ShareAlike 4.0), permitindo o uso apenas para fins não comerciais. O código é escrito em Python usando a estrutura PyTorch.
Os esboços são elaborados na forma de um mapa segmentado que determina a colocação de objetos aproximados na cena. A natureza dos objetos gerados é especificada por meio de marcas coloridas. Por exemplo, um preenchimento azul se transforma no céu, o azul em água, o verde escuro em árvores, o verde claro em grama, o marrom claro em pedras, o marrom escuro em montanhas, o cinza em neve, uma linha marrom se transforma em uma estrada e um azul linha em um rio. Além disso, com base na seleção de imagens de referência, são determinados o estilo geral da composição e a hora do dia. A ferramenta proposta para a criação de mundos virtuais pode ser útil para uma ampla gama de especialistas, desde arquitetos e urbanistas até desenvolvedores de jogos e paisagistas.
Os objetos são sintetizados por uma rede neural adversária generativa (GAN), que cria imagens realistas com base em um mapa esquemático segmentado, emprestando detalhes de um modelo pré-treinado em vários milhões de fotografias. Ao contrário dos sistemas de síntese de imagens desenvolvidos anteriormente, o método proposto é baseado no uso de transformação espacial adaptativa seguida de transformação baseada em aprendizado de máquina. O processamento de um mapa segmentado em vez da marcação semântica permite obter resultados de correspondência exata e controlar o estilo.
Para alcançar o realismo, duas redes neurais competem entre si: um gerador e um discriminador. O gerador gera imagens a partir da mistura de elementos de fotografias reais, e o discriminador identifica possíveis desvios das imagens reais. Como resultado, forma-se um feedback, a partir do qual o gerador passa a compor amostras cada vez melhores até que o discriminador deixe de distingui-las das reais.
Fonte: opennet.ru