Stability AI ұсынылған үлгіге немесе табиғи тілдегі мәтін сипаттамасына негізделген кескіндерді синтездеуге және өзгертуге қабілетті Stable Diffusion машиналық оқыту жүйесінің екінші басылымын жариялады. Нейрондық желіні оқытуға және кескінді генерациялауға арналған құралдар коды PyTorch негізін пайдаланып Python тілінде жазылған және MIT лицензиясы бойынша жарияланған. Қазірдің өзінде оқытылған модельдер коммерциялық пайдалануға мүмкіндік беретін Creative ML OpenRAIL-M рұқсат беретін лицензиясы бойынша ашық. Сонымен қатар, демонстрациялық онлайн кескін генераторы қол жетімді.
Тұрақты диффузияның жаңа басылымындағы негізгі жақсартулар:
- 2.0×768 рұқсатымен кескіндерді құруды қолдайтын мәтіндік сипаттамаға негізделген кескін синтезінің жаңа моделі — SD768-v — жасалды. Жаңа модель мәтіндік сипаттамалары бар 5 миллиард суреттен тұратын LAION-5.85B топтамасын қолдану арқылы оқытылды. Модель Stable Diffusion 1.5 үлгісімен бірдей параметрлер жинағын пайдаланады, бірақ түбегейлі басқа OpenCLIP-ViT/H кодтаушыны пайдалануға көшуімен ерекшеленеді, бұл алынған кескіндердің сапасын айтарлықтай жақсартуға мүмкіндік берді.
- SD2.0-базасының жеңілдетілген нұсқасы дайындалды, 256×256 кескіндерде шуды болжаудың классикалық үлгісін қолдана отырып және 512×512 рұқсатымен кескін жасауды қолдау арқылы оқытылды.
- Кеңістіктік масштабтау және бөлшектерді реконструкциялау алгоритмдерін қолдана отырып, сапаны төмендетпестен түпнұсқа кескіннің рұқсатын арттыру үшін суперсараптау (Super Resolution) технологиясын қолдану мүмкіндігі қарастырылған. Берілген кескінді өңдеу моделі (SD20-upscaler) 2048×2048 ажыратымдылығы бар кескіндерді жасай алатын XNUMXx масштабтауды қолдайды.
- SD2.0-depth2img моделі ұсынылған, ол объектілердің тереңдігі мен кеңістіктегі орналасуын ескереді. MiDaS жүйесі монокулярлық тереңдікті бағалау үшін қолданылады. Модель түпнұсқадан түбегейлі өзгеше болуы мүмкін, бірақ жалпы құрамы мен тереңдігін сақтайтын үлгі ретінде басқа суретті пайдаланып жаңа кескіндерді синтездеуге мүмкіндік береді. Мысалы, сол позадағы басқа кейіпкерді қалыптастыру үшін фотодағы адамның позасын пайдалануға болады.
- Суреттерді өзгерту үлгісі жаңартылды - SD 2.0-inpainting, ол мәтіндік шақыруларды пайдаланып кескін бөліктерін ауыстыруға және өзгертуге мүмкіндік береді.
- Модельдер бір графикалық процессоры бар кәдімгі жүйелерде пайдалану үшін оңтайландырылған.
Ақпарат көзі: opennet.ru