Диффузияи устувор 2.0 Системаи синтези тасвир ҷорӣ карда шуд

Stability AI нашри дуюми системаи омӯзиши мошини Stable Diffusion-ро нашр кард, ки қодир аст тасвирҳоро дар асоси қолаби пешниҳодшуда ё тавсифи матни забони табиӣ синтез ва тағир диҳад. Рамзи асбобҳо барои омӯзиши шабакаҳои нейронӣ ва тавлиди тасвир дар Python бо истифода аз чаҳорчӯбаи PyTorch навишта шудааст ва таҳти иҷозатномаи MIT нашр шудааст. Моделҳои аллакай омӯзонидашуда дар доираи иҷозатномаи иҷозатдиҳандаи Creative ML OpenRAIL-M кушода шудаанд, ки ба истифодаи тиҷоратӣ имкон медиҳад. Илова бар ин, як тавлидкунандаи тасвири намоишии онлайн мавҷуд аст.

Такмилҳои асосӣ дар нашри нави Диффузияи устувор:

  • Модели нави синтези тасвирҳо дар асоси тавсифи матн — SD2.0-v — офарида шудааст, ки тавлиди тасвирҳоро бо қарори 768×768 дастгирӣ мекунад. Модели нав бо истифода аз коллексияи LAION-5B аз 5.85 миллиард тасвирҳо бо тавсифи матн омӯхта шудааст. Модел як маҷмӯи параметрҳоро ҳамчун модели Stable Diffusion 1.5 истифода мебарад, аммо бо гузаштан ба истифодаи рамзгузори куллан фарқкунандаи OpenCLIP-ViT/H фарқ мекунад, ки имкон дод, ки сифати тасвирҳои натиҷавӣ ба таври назаррас беҳтар карда шавад.
    Диффузияи устувор 2.0 Системаи синтези тасвир ҷорӣ карда шуд
  • Версияи соддакардашудаи SD2.0-базавӣ омода карда шудааст, ки дар тасвирҳои 256×256 бо истифода аз модели классикии пешгӯии садо ва дастгирии тавлиди тасвир бо қарори 512×512 омӯзонида шудааст.
    Диффузияи устувор 2.0 Системаи синтези тасвир ҷорӣ карда шуд
  • Имконияти истифодаи технологияи supersampling (Super Resolution) барои баланд бардоштани ҳалли тасвири аслӣ бидуни паст кардани сифат, бо истифода аз алгоритмҳои миқёси фазоӣ ва азнавсозии ҷузъиёт пешбинӣ шудааст. Модели коркарди тасвири пешниҳодшуда (SD20-upscaler) 2048x васеъкуниро дастгирӣ мекунад, ки метавонад тасвирҳоро бо қарори 2048 × XNUMX тавлид кунад.
    Диффузияи устувор 2.0 Системаи синтези тасвир ҷорӣ карда шуд
  • Модели SD2.0-depth2img пешниҳод шудааст, ки амиқӣ ва ҷойгиршавии фазоии объектҳоро ба назар мегирад. Системаи MiDaS барои баҳодиҳии чуқурии монокулярӣ истифода мешавад. Модел ба шумо имкон медиҳад, ки тасвирҳои навро бо истифода аз тасвири дигар ҳамчун қолаб синтез кунед, ки он метавонад аз асл комилан фарқ кунад, аммо таркиб ва амиқро нигоҳ медорад. Масалан, шумо метавонед аз позаи шахсе дар акс истифода баред, то дар ҳамон поза хислати дигареро эҷод кунед.
    Диффузияи устувор 2.0 Системаи синтези тасвир ҷорӣ карда шуд
    Диффузияи устувор 2.0 Системаи синтези тасвир ҷорӣ карда шуд
    Диффузияи устувор 2.0 Системаи синтези тасвир ҷорӣ карда шуд
  • Модели тағир додани тасвирҳо нав карда шуд - SD 2.0-inpainting, ки ба шумо имкон медиҳад бо истифода аз дастурҳои матнӣ қисмҳои тасвирро иваз ва тағир диҳед.
    Диффузияи устувор 2.0 Системаи синтези тасвир ҷорӣ карда шуд
  • Моделҳо барои истифода дар системаҳои анъанавӣ бо як GPU оптимизатсия карда шудаанд.

Диффузияи устувор 2.0 Системаи синтези тасвир ҷорӣ карда шуд


Манбаъ: opennet.ru

Илова Эзоҳ