Stability AI ppubblikat it-tieni edizzjoni tas-sistema ta 'tagħlim tal-magni Stable Diffusion, li hija kapaċi tisintetizza u timmodifika immaġini abbażi ta' mudell suġġerit jew deskrizzjoni tat-test tal-lingwa naturali. Il-kodiċi tal-għodod għat-taħriġ tan-netwerk newrali u l-ġenerazzjoni tal-immaġni huwa miktub f'Python bl-użu tal-qafas PyTorch u ppubblikat taħt il-liċenzja MIT. Mudelli diġà mħarrġa huma miftuħa taħt il-liċenzja permissiva Creative ML OpenRAIL-M, li tippermetti użu kummerċjali. Barra minn hekk, ġeneratur tal-immaġni demo onlajn huwa disponibbli.
Titjib ewlieni fl-edizzjoni l-ġdida ta’ Diffużjoni Stabbli:
- Inħoloq mudell ġdid għas-sinteżi tal-immaġni bbażat fuq id-deskrizzjoni tat-test — SD2.0-v —, li jappoġġja l-ġenerazzjoni ta 'immaġini b'riżoluzzjoni ta' 768 × 768. Il-mudell il-ġdid ġie mħarreġ bl-użu tal-kollezzjoni LAION-5B ta '5.85 biljun immaġini b'deskrizzjonijiet tat-test. Il-mudell juża l-istess sett ta 'parametri bħall-mudell Stabbli Diffusion 1.5, iżda huwa differenti bit-tranżizzjoni għall-użu ta' encoder OpenCLIP-ViT/H fundamentalment differenti, li għamilha possibbli li tittejjeb b'mod sinifikanti l-kwalità tal-immaġini li jirriżultaw.
- Verżjoni simplifikata SD2.0-bażi ġiet ippreparata, imħarrġa fuq 256 × 256 immaġini bl-użu tal-mudell klassiku ta 'tbassir tal-istorbju u appoġġ għall-ġenerazzjoni ta' immaġini b'riżoluzzjoni ta '512 × 512.
- Il-possibbiltà li tintuża t-teknoloġija tas-supersampling (Super Resolution) hija pprovduta biex tiżdied ir-riżoluzzjoni tal-immaġni oriġinali mingħajr ma titnaqqas il-kwalità, bl-użu ta 'algoritmi għal skalar spazjali u rikostruzzjoni ta' dettalji. Il-mudell ipprovdut għall-ipproċessar tal-immaġni (SD20-upscaler) jappoġġja 2048x upscaling, li jista 'jiġġenera immaġini b'riżoluzzjoni ta' 2048 × XNUMX.
- Il-mudell SD2.0-depth2img huwa propost, li jqis il-fond u l-arranġament spazjali tal-oġġetti. Is-sistema MiDaS tintuża għall-istima tal-fond monokulari. Il-mudell jippermettilek li tisintetizza immaġini ġodda billi tuża immaġni oħra bħala mudell, li tista 'tkun radikalment differenti mill-oriġinal, iżda żżomm il-kompożizzjoni ġenerali u l-fond. Pereżempju, tista’ tuża l-poża ta’ persuna f’ritratt biex tifforma karattru ieħor fl-istess poża.
- Il-mudell għall-modifika tal-immaġini ġie aġġornat - SD 2.0-inpainting, li jippermettilek tissostitwixxi u tibdel partijiet ta 'immaġni billi tuża t-test prompts.
- Mudelli ġew ottimizzati għall-użu fuq sistemi konvenzjonali b'GPU waħda.
Sors: opennet.ru