Sistema ta' Sinteżi ta 'Immaġni Stabbli ta' Diffużjoni 2.0 Introdotta

Stability AI ppubblikat it-tieni edizzjoni tas-sistema ta 'tagħlim tal-magni Stable Diffusion, li hija kapaċi tisintetizza u timmodifika immaġini abbażi ta' mudell suġġerit jew deskrizzjoni tat-test tal-lingwa naturali. Il-kodiċi tal-għodod għat-taħriġ tan-netwerk newrali u l-ġenerazzjoni tal-immaġni huwa miktub f'Python bl-użu tal-qafas PyTorch u ppubblikat taħt il-liċenzja MIT. Mudelli diġà mħarrġa huma miftuħa taħt il-liċenzja permissiva Creative ML OpenRAIL-M, li tippermetti użu kummerċjali. Barra minn hekk, ġeneratur tal-immaġni demo onlajn huwa disponibbli.

Titjib ewlieni fl-edizzjoni l-ġdida ta’ Diffużjoni Stabbli:

  • Inħoloq mudell ġdid għas-sinteżi tal-immaġni bbażat fuq id-deskrizzjoni tat-test — SD2.0-v —, li jappoġġja l-ġenerazzjoni ta 'immaġini b'riżoluzzjoni ta' 768 × 768. Il-mudell il-ġdid ġie mħarreġ bl-użu tal-kollezzjoni LAION-5B ta '5.85 biljun immaġini b'deskrizzjonijiet tat-test. Il-mudell juża l-istess sett ta 'parametri bħall-mudell Stabbli Diffusion 1.5, iżda huwa differenti bit-tranżizzjoni għall-użu ta' encoder OpenCLIP-ViT/H fundamentalment differenti, li għamilha possibbli li tittejjeb b'mod sinifikanti l-kwalità tal-immaġini li jirriżultaw.
    Sistema ta' Sinteżi ta 'Immaġni Stabbli ta' Diffużjoni 2.0 Introdotta
  • Verżjoni simplifikata SD2.0-bażi ġiet ippreparata, imħarrġa fuq 256 × 256 immaġini bl-użu tal-mudell klassiku ta 'tbassir tal-istorbju u appoġġ għall-ġenerazzjoni ta' immaġini b'riżoluzzjoni ta '512 × 512.
    Sistema ta' Sinteżi ta 'Immaġni Stabbli ta' Diffużjoni 2.0 Introdotta
  • Il-possibbiltà li tintuża t-teknoloġija tas-supersampling (Super Resolution) hija pprovduta biex tiżdied ir-riżoluzzjoni tal-immaġni oriġinali mingħajr ma titnaqqas il-kwalità, bl-użu ta 'algoritmi għal skalar spazjali u rikostruzzjoni ta' dettalji. Il-mudell ipprovdut għall-ipproċessar tal-immaġni (SD20-upscaler) jappoġġja 2048x upscaling, li jista 'jiġġenera immaġini b'riżoluzzjoni ta' 2048 × XNUMX.
    Sistema ta' Sinteżi ta 'Immaġni Stabbli ta' Diffużjoni 2.0 Introdotta
  • Il-mudell SD2.0-depth2img huwa propost, li jqis il-fond u l-arranġament spazjali tal-oġġetti. Is-sistema MiDaS tintuża għall-istima tal-fond monokulari. Il-mudell jippermettilek li tisintetizza immaġini ġodda billi tuża immaġni oħra bħala mudell, li tista 'tkun radikalment differenti mill-oriġinal, iżda żżomm il-kompożizzjoni ġenerali u l-fond. Pereżempju, tista’ tuża l-poża ta’ persuna f’ritratt biex tifforma karattru ieħor fl-istess poża.
    Sistema ta' Sinteżi ta 'Immaġni Stabbli ta' Diffużjoni 2.0 Introdotta
    Sistema ta' Sinteżi ta 'Immaġni Stabbli ta' Diffużjoni 2.0 Introdotta
    Sistema ta' Sinteżi ta 'Immaġni Stabbli ta' Diffużjoni 2.0 Introdotta
  • Il-mudell għall-modifika tal-immaġini ġie aġġornat - SD 2.0-inpainting, li jippermettilek tissostitwixxi u tibdel partijiet ta 'immaġni billi tuża t-test prompts.
    Sistema ta' Sinteżi ta 'Immaġni Stabbli ta' Diffużjoni 2.0 Introdotta
  • Mudelli ġew ottimizzati għall-użu fuq sistemi konvenzjonali b'GPU waħda.

Sistema ta' Sinteżi ta 'Immaġni Stabbli ta' Diffużjoni 2.0 Introdotta


Sors: opennet.ru

Żid kumment