Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Inachekesha jinsi historia ya kutolewa kwa mifumo huria ya kubadilisha maandishi kuwa picha, iliyotengenezwa na kufunzwa na Stability AI, inavyofanana na mfululizo wa kupanda na kushuka kwa matoleo mfululizo ya Microsoft OS. Baada ya mafanikio ya hadithi ya XP, tukumbuke, ilikuja Vista yenye matatizo; kisha Windows 7 nzuri—na kisha bahati mbaya. Windows 8. Katika Stable Diffusion, toleo la 1.5 ambalo mwanzoni halikuwa zuri, ambalo liliboreshwa polepole na wapenzi, lilifuatiwa na SD 2.0 ambayo haikufanikiwa - kwa kweli haikufanikiwa, kwa sababu ilijumuisha kisimbaji cha OpenCLIP, ambacho si cha kawaida kwa modeli za aina hii, mafunzo juu ya picha zilizochaguliwa kwa utata sana ya fungua seti ya data ya LAION-5B. Wakati wa uteuzi huu, sio tu marejeleo ya taswira yasiyofaa (NSFW) yaliondolewa, lakini pia picha za kuchora na vielelezo vya wasanii maarufu kama Greg Rutkowski mashuhuri. Ilikuwa ya mwisho ambayo ilikasirisha kabisa washiriki: ikiwa kwa SD 1.5, hata katika toleo la asili, bila matumizi ya vituo vya ukaguzi vya hali ya juu, vidokezo rahisi na mitindo vilifanya kazi kikamilifu - "mazingira ya fantasy ya epic, kwa mtindo wa Greg Rutkowski" - na matokeo yalikuwa ya kuvutia, basi SD 2.0 iliacha "kutambua" majina ya vielelezo vinavyojulikana sana, ambao hakimiliki zao za kazi walizounda bado ni halali na ambao hawakujitolea kutoa kazi hizi kwa mafunzo ya AI. Ilinibidi kutumia maneno zaidi kuelezea kile nilichotaka, na mfano haukuendana vizuri na vidokezo virefu sana.

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

#Akaketi - akasimama, akaketi - akasimama

Pamoja na kisimbaji kilichorekebishwa (kibadilishaji cha vidokezo vya maandishi kuwa tokeni za dijiti, ambazo mtindo huo hufanya kazi nazo moja kwa moja), kutokuwa na uwezo wa kutumia mitindo iliyotajwa kuliwanyima wapenda motisha ya kuboresha "mbili" peke yao. Kweli, kwa kweli: hapa ilikuwa ni lazima kufikiria wakati huo huo jinsi ya kurekebisha mbinu iliyothibitishwa tayari ya kuunda vidokezo vya encoder mpya, na kuongeza mafunzo kwa mfano kutambua picha na mada hizo ambazo waundaji hawakuzianzisha kwenye hatua. ya mafunzo ya awali - lakini kulikuwa na tofauti ya ubora kutoka kwa picha "moja na nusu" zilizotolewa na "mbili" bado hazikuhakikisha. Ndio, kutoka kwa saizi ya kawaida ya SD 1.5 ya saizi 512x512 kulikuwa na kuruka kwa ubora hadi 768x768, lakini wakati huo jumuiya ilikuwa tayari ikitumia upscaler, wachoraji wa nje na zana zingine ili kuongeza saizi ya picha ya mwisho, kwa hivyo SD 2.0 ilipita, na kubwa, isiyojulikana. SDXL kurudi kwenye kiwango (iliyotengenezwa na OpenAI na kutumiwa haswa na mradi wa DALL-E) kwa kisimbaji cha CLIP - nambari yake pia imefunguliwa, lakini hapa kuna hifadhidata ambayo imefunzwa, tofauti na OpenCLIP, wamiliki. Kwa kuongezea, saizi ya kawaida ya turubai kwa Oversize imeongezeka hadi 1024x1024, pamoja na maboresho kadhaa ya ziada yameonekana, kwa hivyo washiriki walichukua marekebisho yake kwa furaha. Na hadi sasa, ni SDXL (na derivatives yake ambayo ilionekana si muda mrefu uliopita, chini ya mahitaji ya vifaa, kama SDXL Turbo и Umeme wa SDXL) inaweza kuzingatiwa kwa ujasiri kuwa jenereta maarufu ya picha ya AI ya chanzo-wazi. Walakini, wafuasi wenye bidii wa SD 1.5 wanabishana na hii, wakionyesha kuwa zana muhimu kama ControlNet ziko kwenye SDXL. bado hazijahamishwa vya kutosha.

Na sasa, kuanzia Juni 12, 2024, kutoka wakati wa "kutolewa porini" kwa nambari ya mfano inayoruhusu kizazi cha ndani, wakati unapaswa kuwa umefika wa toleo la "wazi" la SD 3 - kwa usahihi zaidi, basi. Usambazaji Imara 3 Wastani (SD3M au SD3 2B) yenye vigezo vya uendeshaji bilioni 2. Kwa kawaida, tunakumbuka kuwa nambari hii inalingana na jumla ya idadi ya uzani kwenye pembejeo za maoni yote kwenye mfano. Hata mapema, mnamo Aprili, AI ya Utulivu ilifufua na kupendekeza matumizi ya kibiashara ya milioni 8 (kwa suala la idadi ya vigezo) Usambazaji Imara 3 Kubwa, aka SD3 8B. Kama ukumbusho, SDXL 1.0 ina - Vigezo bilioni 3,5, hata hivyo, SD3M, kulingana na watengenezaji, ni "mfano wa kisasa zaidi wa kuunda picha ambao tumeunda hadi sasa". Ilimaanisha kuwa ikiwa na mahitaji madogo ya kumbukumbu ya video kuliko Iliyozidi ukubwa, ingelazimika kutoa picha "na kiwango kipya cha uhalisia wa picha" hata kwa kujibu vidokezo rahisi. Miongoni mwa manufaa ya ukadiriaji wa "C" pia ni "ubora usio na kifani wa uchapaji wa maandishi yaliyopatikana kutoka kwa picha zinazozalishwa," "uelewa wa kina wa vidokezo kutokana na jitihada za pamoja za coders tatu kwa wakati mmoja," na " utayari wa mafunzo ya ziada yenye ufanisi hata kwenye seti chache za data."

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Ni wazi ilizingatiwa kuwa jamii ya wapendaji, wakiwa wamepokea toy mpya iliyosubiriwa kwa muda mrefu, wangeanza kuikumbuka kwa bidii sawa na "moja na nusu" na "Oversize" wakati wao. Walakini, kila kitu kilienda vibaya tangu mwanzo: SD3M katika saa za kwanza kabisa baada ya kuchapishwa kwa faili za mfano kwenye Hugging Face na Civitai. imeweza kukata tamaa sana watazamaji wako, na mara mbili kwa wakati mmoja. Mara ya kwanza - kwa mtazamo usioeleweka wa idiosyncrasy kwa dalili, ikiwa ni pamoja na maneno yanayoonekana kuwa na hatia "kulala kwenye / kwenye nyasi"; ya pili - maneno yasiyoeleweka sana katika makubaliano ya watumiaji, ambayo hata wanasheria wa kitaalam hawakuweza kuelewa mara moja. Na ingawa kutoka kwa mtazamo wa mshiriki wa kawaida wa sanaa ya AI, mwisho huo unaonekana kuwa mdogo, ni upande wa kisheria wa suala hilo ambao utaonyeshwa kwa njia ya moja kwa moja juu ya maendeleo zaidi ya mtindo - hadi kwamba hakuna maendeleo yanaweza. kufuata kabisa.

Ubunifu wa awali wa Usambazaji Imara wa chanzo-wazi (kwa usahihi zaidi, na maadili wazi ya uzani wa mtandao wa neural unaopatikana kwa upakuaji wa bure na utekelezaji uliofuata ndani ya nchi), kama vile SDXL, uliambatana na moja ya mifano ya kawaida ya uzalishaji. Leseni ya CreativeML Open RAIL++-M yenye sifa kama vile "leseni ya kudumu, duniani kote, isiyo ya kipekee, isiyo na mrabaha, isiyo na mrabaha, isiyoweza kutenduliwa ya hakimiliki ya kuzalisha tena, kuandaa, kuonyesha hadharani, kuigiza hadharani, kutoa leseni na kusambaza nyenzo za ziada za muundo wenyewe na vinyago vyake. " "Troechka" hutoa aina mbili za leseni: kwa matumizi yasiyo ya kibiashara - yenye lugha ya kukatisha tamaa sana kama vile "Utulivu wa AI hukupa leseni isiyo ya kipekee, duniani kote, isiyoweza kuhamishwa, isiyoweza kuidhinishwa, kubatilishwa, isiyo na mrabaha, leseni ndogo ya uvumbuzi" - na kibiashara zaidi ya kutaabisha.

#Nyasi haitafaa chochote

Baada ya muda mfupi sana, jamii ilikubali hilo Usambazaji thabiti wa 3 sio Chanzo Huzi. Na kwa kweli, ilitangaza kususia kampuni ya msanidi programu, bila kutaka kupoteza wakati na bidii juu ya mafunzo ya ziada ya mfano mbovu na mpotovu - kwa kuelewa kwamba Utulivu AI inaweza wakati wowote, kwa matakwa kidogo ya media yake. wasimamizi, kuchukua na kufuta leseni iliyotolewa hapo awali kwa mshiriki maalum, akifanya mafunzo hayo ya ziada. Makubaliano ya leseni yametungwa kwa njia ambayo watu ambao si wanasheria wanaosoma wanapata hisia kwamba kufuatia kufutwa kwa ruhusa ya matumizi ya kibiashara ya SD3M, mpokeaji wake wa zamani atalazimika kuondoa derivatives zote zilizoundwa naye kutoka kwa mali miliki iliyopewa leseni. yake, ikiwa ni pamoja na miundo yote iliyofunzwa awali yenyewe (LoRA, ubadilishaji wa maandishi, vituo vyote vya ukaguzi), na derivatives zao (nukuu: "Baada ya kusitishwa kwa Mkataba huu, utafuta na kusitisha matumizi ya Bidhaa zozote za Programu au Kazi Zilizotoka") - i.e. , matunda ya kazi ya watu wengine ambao walitumia mifano hii ya derivative kama mahali pa kuanzia kwa kazi yako mwenyewe; Zaidi ya hayo, haikulipwa na mtu yeyote na ilifanywa kwa shauku safi.

Mara tu baada ya wimbi la hasira juu ya suala hili kufikia urefu wa stratospheric, ujumbe ulianza kuonekana kutoka kwa wanasheria wa kitaaluma, kwamba sio kila kitu kibaya na kwamba kukumbushwa kwa marufuku ya utumiaji zaidi kwa kweli kunapaswa kuhusisha tu bidhaa zingine-zaidizi zilizofungwa ambazo Utulivu AI itahamisha kwa mtumiaji wa kibiashara (sema, kuharakisha na kuongeza mafunzo ya awali ya SD3M) - lakini kampuni yenyewe. bado hajatoa maelezo ya mwisho juu ya jambo hili na hakutoa. Na ukweli wa ukimya kama huo wa kukandamiza kwa wiki tatu zilizopita (wakati wa kuandika nakala hii) tangu kuonekana kwa "C" kwenye uwanja wa umma kunadhuru sifa ya msanidi programu zaidi kuliko nyasi huwadhuru wasichana. yanayotokana na uumbaji wake.

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Kuhusu mimea yenye sifa mbaya, ambayo iliweza kuwa meme halisi katika suala la masaa kwanza kwenye Hugging Face, na kisha kwenye tovuti karibu zote au zisizo maalum kwenye mtandao, ikawa kwamba kuwepo kwa haraka ya maneno kama "msichana amelala kwenye nyasi" husababisha kuonekana katika matokeo ya "C" ya sio tu maonyesho. , lakini ubunifu wa kutisha wa mgonjwa - kwa maana ya matibabu - ndoto za wasanii na watengenezaji wa filamu waliobobea katika kutisha mwili (tunakusihi, ikiwa akili yako na maisha yako ni ya kupendwa kwako, kaa mbali na hii na usijaribu hata kujaribu. andika kifungu hiki kwenye kidirisha cha kutafuta picha huku kichujio cha usalama kikizima). Wakati huo huo, picha za kusimama - na, kwa kiasi kidogo, kukaa - watu hufikia daraja la C na ujasiri wa B pamoja, na picha za picha wakati mwingine hutoka bila makosa kabisa; angalau hakuna mbaya zaidi kuliko mfano wa msingi wa SDXL 1.0 - kukamata hapa ni aina fulani ya taboo ya ndani kwenye nafasi ya usawa ya mwili wa binadamu.

Kwa kuzingatia maoni ya Emad Mostaque, mwanzilishi na mkuu wa zamani (hadi Machi 2024) mkuu wa Utulivu AI, ambaye aliiacha kampuni hiyo kwenda. "Shiriki katika miradi iliyogatuliwa katika uwanja wa akili bandia", vurugu mbaya dhidi ya SD3M kabla ya kufunguliwa kwa mizani yake kwa matumizi machache yasiyo ya kibiashara (API ya muundo mkubwa wa SD3 8B kwa ajili ya uzalishaji mtandaoni, kumbuka inapatikana kupitia tovuti za washirika tangu Aprili, lakini uzito wake unabaki kufichwa) ulikuwa ni matokeo ya hamu ya uongozi wa sasa ya kutaka usalama - "kutokana na majukumu ya udhibiti", iliyoandaliwa mwezi Machi mwaka huu kama Sera ya Matumizi ya Kukubaliwa. Ni chini ya sera hii, kwa kutumia muundo wa uzalishaji wa SD3M, ambapo watumiaji hawaruhusiwi "kufanya, kukuza, kukuza, kuwezesha, kuhimiza, kupanga, kuchochea au kuendeleza vurugu zaidi, ugaidi au kuunda maudhui ya chuki ambayo yanabagua au kutishia kundi la watu wanaolindwa (iwe kwa kuzingatia jinsia, kabila, utambulisho wa kingono au mwelekeo, dini, n.k.),” kwa hiyo hakuna picha za panda katika kile mama yao alichojifungua wakipigana na mazimwi! Paka pekee katika kofia za kuchekesha, mbwa katika jaketi nzuri, chupa zilizo na yaliyomo haijulikani na kuki safi moja kwa moja kutoka kwenye tanuri!

Kwa kusema kitaalam, labda kujitolea kwa mtindo huo kulijumuisha ukweli kwamba picha zilizo na watu waongo na picha zingine ambazo kwa njia fulani zilionyesha tafsiri chafu zilitengwa tu kutoka kwa seti ya data ya mafunzo - na kwa hivyo sasa "C" "haelewi" maana ya neno "uongo". Au usanifu uliosasishwa wa SD3 ulifanya iwezekane kutambua kwa ujasiri uzani kwenye vitambulisho vilivyowashwa wakati wa utengenezaji wa picha "zisizo salama" - na uzani huu uliwekwa upya kwa sifuri kabla ya kutolewa, athari yake ambayo ilikuwa "kuonya kwa kulazimishwa." Labda, hii inaweza tayari kulinganishwa na lobotomia: encoder kwa usahihi hutafsiri maandishi kwenye ishara, lakini katika nafasi ya siri "salama", ishara hizi hazionyeshi tena chochote maalum, na kwa hiyo saizi zinazotokana ziko kwenye picha kimsingi kwa nasibu.

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Kwa kuzingatia upatikanaji wa API wa muundo kamili, lakini uliofungwa wa SD3 8B kwa miezi kadhaa sasa na uhakikisho mkali wa wasimamizi wa media ya Uthabiti wa AI kwamba 2B "iliyounganishwa" itakuwa karibu sawa katika suala la ubora wa mtazamo wa maandishi na utengenezaji wa picha, Wapenzi wa mchoro wa AI walikaribisha kutolewa kwa mizani ya SD3M kwa umma mnamo Juni 12 kwa shauku zaidi: katika saa 24 za kwanza mfano huo ulipakuliwa mara milioni 2,7. Kwa sasa, bado inawezekana kuipata, ingawa kwa njia ya kuzunguka kidogo kuliko ilivyo kawaida kwa vituo vya ukaguzi vya SDXL na SD 1.5. Kweli, njia ya kawaida ni kwenda kwenye tovuti ya Civitai, ambayo mifano nyingi hupakuliwa bila usajili, lakini kutoka Juni 17 hadi uhamisho wa makala hii kwa mpangilio, ukurasa wa tovuti hii iliyotolewa kwa "C" yuko katika bafu ya muda. Kuna sababu moja tu: leseni ya kibiashara ya SD3M imeandikwa kwa lugha isiyoeleweka hivi kwamba hata mawakili wa Civitai walichukua mapumziko ili kuisoma kwa karibu zaidi. Baada ya yote, ikiwa mshiriki fulani anafundisha LoRA kwa "C" kwenye PC yake na kuichapisha kwenye Civitai, na Utulivu AI ghafla huamua kuwa matokeo hayakuwa sahihi na kufuta leseni ya mhalifu, tovuti ya mwenyeji inapaswa kufanya nini katika kesi hii? Baada ya yote, sio tu mwenyeji wa vituo vya ukaguzi, cyclograms msaidizi na mifano, lakini pia hutoa wageni fursa ya kuzalisha picha za wingu na kufundisha LoRA sawa, inversions ya maandishi, nk. Kwa ujumla, wakati jaribio linaendelea, unaweza tu kuchukua faili za kielelezo yenyewe na vigeuzi vitatu vya maandishi-to-tokeni vinavyokuja nayo. kutoka kwa ukurasa wa Utulivu wa AI kwenye tovuti ya Hugging Face.

#Tuanze

Kweli, kuna nuance: ili kupata viungo vya kupakua, unahitaji kuingia kwenye tovuti, na kisha uhakikishe kukubalika kwako kwa makubaliano ya leseni ya draconian iliyotajwa mapema - hata hivyo, utaratibu huu ni bure na unapatikana kabisa kutoka Urusi. . Kwa jumla, kuna chaguzi nne za kuchagua kutoka (mifano) na vibadilishaji vinne vya vidokezo vya maandishi kuwa tokeni (visimbaji), pamoja na saikologramu tatu za marejeleo za utekelezaji katika mazingira ya kazi ya ComfyUI, ambayo tayari tulizungumza mara moja:

mifano:

  • sd3_medium.safetensors
  • sd3_medium_incl_clips.safetensors
  • sd3_medium_incl_clips_t5xxlfp8.safetensors
  • sd3_medium_incl_clips_t5xxlfp16.safetensors

visimbaji:

  • clip_g.safetensors
  • clip_l.safetensors
  • t5xxl_fp8_e4m3fn.safetensors
  • t5xxl_fp16.safetensors

saikolografia:

  • sd3_medium_example_workflow_basic.json
  • sd3_medium_example_workflow_multi_prompt.json
  • sd3_medium_example_workflow_upscaling.json

Katika "Warsha" hii tutajiwekea kikomo kwa vidhibiti vya msingi vya sd3_medium.safetensors (GB 4,2), visimbaji vitatu - clip_g.safetensors (GB 1,3), clip_l.safetensors (234 MB) na t5xxl_fp8_e4m3fn.safetensors GB 4,7 pia (3 GB). kama saikologramu sd1070_medium_example_workflow_multi_prompt.json. Ukweli ni kwamba mashine yetu ya mtihani ina, hebu tukumbushe, kadi ya video ya GeForce GTX 8 na 1.5 GB ya RAM ya video, na mifano kubwa na waongofu wote waliounganishwa mara moja haitaingia ndani ya kiasi hiki. Kwa vituo vya ukaguzi kulingana na SD 6 na SDXL, encoders hujengwa kwenye faili kuu kwa default, lakini katika kesi hii hakuna hata mbili za waongofu hawa, lakini tatu, kwa jumla ya zaidi ya 10 GB - pamoja na mfano yenyewe, tayari kuna zaidi ya 16 GB; na ukichukua toleo la 5-bit la kisimbaji cha T6XXL, utahitaji kadi ya video bora zaidi. Katika toleo ambalo waongofu wa maandishi-to-toni hupakiwa kwanza kwenye kumbukumbu ya video, na kisha mfano unaofanya kazi na ishara hizi hupakiwa, hata adapta ya graphics ya 5 GB itafanya kazi vizuri. Kwa mtazamo huu, "troika" ya moduli hakika inapita kiwango cha ukaguzi cha 7-XNUMX GB SDXL.

SD3M ni kielelezo kulingana na transfoma za uenezaji wa multimodal (Multimodal Diffusion Transformer, MMDiT) - na kwa hivyo kimsingi hutofautiana na maendeleo ya awali ya Uthabiti AI (na sio tu), ambayo inategemea Usanifu wa U-Net, uliopendekezwa nyuma mnamo 2015 Warsha sio mahali pa uchunguzi wa kina wa tofauti kati ya njia hizi za utengenezaji wa picha za AI; tuseme hivyo MMDiT hutoa utendaji bora wa mfano, uwezo wake wa kufanya kazi na idadi kubwa ya ishara (ambayo, kwa upande wake, inaruhusu operator kuunda maandishi ya kina sana, na mfumo wa kufuata kwa wakati kabisa), pamoja na ubora bora wa picha zinazosababisha. SD3 8B ya ukubwa kamili ina uwezo wa kutoa picha kwenye turubai ya MP 4 (pikseli 2048 × 2048), pamoja na mbele ya DALL-E 3, Midjourney v6 na Ideogram v1 katika majaribio kama vile uchapishaji wa maandishi katika picha, usahihi wa kulinganisha picha inayotokana na kidokezo cha maandishi, na uzuri wa jumla wa kuona. Ubadilishaji wa maandishi kuwa vekta ya ishara unafanywa hapa na encoders tatu mara moja (mifano miwili ya CLIP na T5-XXL moja - "T5", kwa njia, kutoka Kigeuza-Maandishi-hadi-Maandishi) - na, kwa ujumla, sio lazima kufanya kazi na wazo sawa.

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Lakini utangulizi wa kutosha: hebu tupate kile ambacho "Warsha" imejitolea-kuzalisha picha kulingana na mfano wa SD3M. Kwa hili tunatumia, kama ilivyotajwa tayari, mazingira ya kazi ya ComfyUI, ambayo unaweza kupakua kupitia kiunga cha moja kwa moja kutoka kwa GitHub. Tunasisitiza kwamba chaguo hili ni la utekelezaji tu kwenye adapta za picha za NVIDIA au moja kwa moja kwenye AMD au Intel CPU (ambayo, bila shaka, itakuwa polepole zaidi): wamiliki wa kadi za video za AMD. Mkongojo hutolewa kwa namna ya vifurushi rocm na pytorch, ambayo inaweza kusanikishwa kupitia meneja wa upakuaji wa bomba.

Baada ya kukamilika kwa ufungaji wa mazingira ya kazi, unapaswa kuweka faili za .safetensors zilizopakuliwa hapo awali: mifano - katika saraka ya ComfyUImodelscheckpoints, maandishi kwa waongofu wa ishara - katika ComfyUImodelsclip. Na - unaweza kuanza!

#Wakati wa kuongeza kasi

Inafaa kutaja kuwa AUTOMATIC1111, mazingira ya kufanya kazi yanayojulikana sana kwa wasomaji wa "Warsha" zilizopita juu ya mada ya mchoro wa AI, hadi mwisho wa Juni pia. alipata fursa ya kufanya SD3M, hata hivyo, katika ComfyUI, usaidizi wa mtindo mpya unasalia kuwa kamili zaidi. Haishangazi - baada ya yote, hadi hivi majuzi, mwandishi wa "monster wa pasta", anayejulikana kwa jamii ya wapendaji chini ya jina la utani ComfyAnonimous, au Comfy tu, alikuwa mfanyakazi wa Utulivu AI, ambapo alifanya kazi, hasa, juu ya mazingira ya ndani ya kazi ya ushirika yaliyotumiwa na watengenezaji wenyewe. Kama tutakavyoona baadaye, toleo jipya zaidi la ComfyUI kwa hakika linashuhudia uwepo wa maarifa fulani kutoka kwa mwandishi wake kuhusu jinsi mtindo huu wenye utata ulivyoundwa na kufanya kazi - ufahamu ambao waundaji wa mazingira mengine ya kufanya kazi kwa utekelezaji wa ndani wa Usambazaji Imara 3 wa Kati. wanaweza kujivunia kwa urahisi juu ya sababu ambazo hawawezi.

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Sakinisha ComfyUI katika toleo linaloweza kubebeka chini ya Windows Ni rahisi kama pai: baada ya kupakua kumbukumbu ya ZIP inayolingana kutoka kwa ukurasa rasmi wa mradi fungua tu kwenye saraka yoyote inayofaa; ni kuhitajika, kwa kweli, kwa kizigeu cha kimantiki kulingana na SSD, na sio kwa HDD - kubadilishana kati ya gari na kumbukumbu, kwa kuzingatia mizunguko inayokuja ya upakiaji na upakuaji wa mifano, hata kutoa picha moja (mazingira). kwanza itahitaji kuweka vigeuzi vya maandishi-to-tokeni kwenye RAM ya video , kisha ufute kumbukumbu ya video na upakie SD3M yenyewe) inatarajiwa kuwa muhimu zaidi, kumbukumbu ndogo ya video ambayo kompyuta fulani inayo ovyo. Kwa njia, usakinishaji wa portable pia ni mzuri kwa sababu ya uhuru wake kamili: hakuna chochote - isipokuwa kwa kiasi cha nafasi ya bure kwenye diski ya mantiki - inakuzuia kupeleka nakala nyingi za ComfyUI kama unavyopenda ili kujaribu moyo wako. yaliyomo na upanuzi mbalimbali, bila hofu ya kuharibu mfumo ambao tayari umetatuliwa na kufanya kazi kikamilifu.

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Baada ya kuhakikisha kwamba faili kuu ya modeli ya SD3M bila visimbaji vya tokeni vya maandishi vilivyojengewa ndani (faili ya stableDiffusion3SD3_sd3Medium.safetensors, 4,2 GB) imewekwa kwenye saraka ndogo ya vituo vya ukaguzi (katika kesi ya usakinishaji wetu wa majaribio, njia kamili ni C:\Fun-n-Games\ComfyUI\SD3\ComfyUImodels\checkpoints), na mifumo yote mitatu ya visimbaji (stableDiffusion3SD3_textEncoderClipG.safetensors, stableDiffusion3SD3_textEncoderClipL.safetensors, na stableDiffusion3SD3_textEncoderT5E4m3fn.safetensors faili; 1,3 GB, 234 MB, na 4,7 GB, mtawalia) zimewekwa kwenye saraka ndogo ya klipu (C:\Fun-n-Games\ComfyUI\SD3\ComfyUImodelsclip), unaweza kuzindua mazingira ya kazi kwa kubofya mara mbili kwenye faili run_nvidia_gpu.bat kwenye folda ya mizizi (kwa upande wetu, C:\Fun-n-Games\ComfyUI\SD3). Baada ya seva kuanza, kwenye dirisha la amri linaloonekana Windows kichupo kipya kitafunguka kiotomatiki katika kivinjari chako chaguo-msingi (hii inadokezwa na mipangilio ya faili ya BAT), ambapo kiolesura cha wavuti kitapatikana kwa 127.0.0.1/8188 ilifugwa na sisi hapo awali (hata kama makadirio ya kwanza) "kinyama cha pasta".

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Kimsingi, ikiwa unayo kadi ya kisasa zaidi ya video ya NVIDIA (kizazi cha RTX, sio GTX, hata na GB 6 tu ya RAM ya video), unaweza kupakia mara moja kwenye mazingira ya kazi saklogram ya kumbukumbu iliyoandikwa na ComfyAnonimous mwenyewe, ambayo ilikuwa. iliyotajwa hapo awali - faili comfy_example_workflows_sd3_medium_example_workflow_multi_prompt.json yenye madirisha mengi ya kuingiza vidokezo, moja kwa kila moja ya visimbaji vitatu, na ufanyie kazi nayo. Kweli, kwanza utahitaji kuleta majina manne ya faili za mfano (katika nodes zao za upakiaji) kwenye mstari na zilizopo. Mwandishi wa saiklografia ya marejeleo ni dhahiri alifanya kazi mahali pake pa kazi (katika Utulivu AI, kama ilivyotajwa tayari) na faili zinazopatikana ndani zinazoitwa tofauti kidogo, kwa hivyo ikiwa bonyeza kitufe cha "Foleni Prompt" kwenye kiolesura cha spartan ComfyUI mara baada ya kupakia saiklogram, mazingira ya kufanya kazi itaonyesha ujumbe wa makosa.

#Sehemu tatu kwa kizazi cha AI

Walakini, hii sio ngumu kurekebisha: kinachosikitisha zaidi ni ukweli kwamba GTX 1070 iliyo na msimu tuliyo nayo ni polepole sana katika usindikaji wa SD3M - utengenezaji wa picha unaendelea kwa kasi ya sekunde 27-30 kwa kila marudio, na, ikiwa. unaona kuwa parameta " Hatua" katika saiklogram ya kumbukumbu imewekwa "28", ambayo inachukua muda mrefu bila sababu. Kwa hivyo, wacha tufanye uboreshaji kidogo - tutatumia moduli ya Python venv (mazingira ya mtandaoni, "mazingira halisi"), iliyoundwa, hasa, ili kuharakisha kazi ya mifano ya AI inayozalisha. Haijajumuishwa kwenye kifurushi cha uwasilishaji wa toleo la portable la ComfyUI, hata hivyo kuna njia nyingi za kusakinisha, ambayo hatimaye huchemka hadi kupeleka mazingira kamili ya Python kwenye Kompyuta ya ndani - na kuamsha moduli muhimu kutoka kwa mazingira haya.

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Tutahesabu ukweli kwamba wasomaji wanaofuata "Warsha" zetu tayari wana usakinishaji wa kazi wa AUTOMATIC1111 kwenye mashine zao. Katika kesi hii, kila kitu ni rahisi zaidi: moduli ya venv tayari imetumwa huko, na yote ambayo yanahitajika kufanywa ili kuiwasha wakati wa kuanza mazingira ya kazi ya ComfyUI ni. piga simu vizuri. Kwanza, unapaswa kuzima seva kwa kubadili dirisha lake na kushinikiza "Ctrl" + "C", na kisha uingie "y" ili kuthibitisha; baada ya hayo, nakili faili ya BAT run_nvidia_gpu.bat kwa mpya, yenye jina, kwa mfano, run_with_venv.bat. Faili ya mwanzo ya kuanza ni fupi sana - inaita nakala ya Python iliyosambazwa kwa urahisi na --windows-standalone-build chaguo:

.python_embededpython.exe -s ComfyUImain.py --windows-standalone-build

pause

Kigezo hiki yenyewe sio wazi sana - inamaanisha uboreshaji fulani, ambao, uwezekano mkubwa, umeundwa mahsusi kwa adapta za hivi karibuni za michoro za NVIDIA na kwa hivyo zinaweza kuzidisha maisha ya wale ambao bado wanabaki waaminifu kwa GTX yao inayostahili. Kwa sababu hii, tutaondoa -windows-standalone-build kutoka kwa safu ya amri, na wakati huo huo tutaacha uboreshaji mwingine mpya - chaguo-msingi kinachofanya kazi "meneja wa kumbukumbu ya smart", kumbukumbu nzuri, ambayo. inajitahidi kushikilia habari nyingi iwezekanavyo katika RAM ya videobila kuipakua. Hii inaharakisha kuchora kwa picha za AI, lakini wakati huo huo inabadilisha kompyuta yetu ya kizamani kuwa mfumo wa kufanya kazi moja - haiwezekani tena kuvinjari wavuti, kucheza michezo, au hata kufanya kazi na hati na barua kwenye PC. sambamba na shughuli za mazingira ya kazi. Kwa hivyo kwa wale ambao hawana kompyuta iliyojitolea kwa sanaa ya AI, faili bora ya BAT ya kuzindua ComfyUI inaonekana kuwa sawa (sio tu kwa madhumuni ya kutoa picha kutoka kwa SD3M, kwa njia, pia inafaa kabisa kwa SDXL):

@echo mbali

piga cd C:Fun-n-GamesGitstable-diffusion-webuivenvScripts

mwangwi %cd%

piga simu activate.bat

echo venv imewashwa

piga cd C:Fun-n-GamesComfyUI-SD3

mwangwi %cd%

piga .python_embededpython.exe -s ComfyUImain.py --disable-smart-memory

pause

Hapa inachukuliwa kuwa usakinishaji wa kubebeka wa ComfyUI unafanywa katika saraka ya C:Fun-n-GamesComfyUI-SD3, na AUTOMATIC1111 ilisakinishwa hapo awali katika C:Fun-n-GamesGitstable-diffusion-webui. "Echoes" nyingi zinahitajika kwa udhibiti wa kuona kwamba mabadiliko ya saraka yanaendelea kawaida na amri muhimu zinatekelezwa - baada ya kila kitu kutatuliwa, zinaweza kuondolewa kutoka kwa faili ya BAT.

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Fungua benchi ya kazi tena, wakati huu kwa kubofya mara mbili run_with_venv.bat. Kwa kuwa hapo awali tulifunga seva tu na hatukugusa kiolesura cha wavuti, saikologramu sawa ya marejeleo ya ComfyUI iliyo na majina ya mifano iliyosahihishwa bado inapaswa kubaki kwenye kichupo kinacholingana. Wacha tuangalie upande wake wa kulia: nodi ya "Picha ya Hakiki" iko hapo, ambayo haihifadhi picha iliyokamilishwa kwenye diski, lakini inaionyesha tu. Ikiwa unaendesha cyclogram kila wakati ili kutoa picha moja haswa, itathmini kwa macho, ubadilishe kitu kwenye vigezo, na uikimbie tena - hii ni chaguo la kufanya kazi kabisa: picha unayopenda inaweza kuhifadhiwa kila wakati kwa kubofya kulia juu yake. . Lakini ikiwa unafanya vizazi vingi kwa mfululizo katika mazingira ya uzalishaji, ni bora kwamba matokeo yao yanakusanywa kiotomatiki katika kumbukumbu ya kudumu (katika saraka ya ComfyUIoutput kwa chaguo-msingi).

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Kwa hivyo ni bora kubadilisha mara moja nodi ya "Picha ya Hakiki" hadi "Hifadhi Picha". Ili kufanya hivyo, bonyeza mara mbili na kifungo cha kushoto cha mouse kwenye sehemu yoyote ya bure ya cyclogram - dirisha la uteuzi wa node na bar ya utafutaji itafungua. Katika mstari huu, anza kuandika "Hifadhi..." - na karibu mara moja tutaona jina unalotafuta. Kisha unachotakiwa kufanya ni kubofya juu yake na kuunganisha pembejeo ya node inayoonekana kwenye pato la "IMAGE" la node ya "VAE Decode", ambapo "Picha ya Hakiki" iliunganishwa awali. "Picha ya Hakiki" yenyewe inaweza kuondolewa zaidi - chagua tu kwa kubofya kichwa na kushinikiza kitufe cha "Del" kwenye kibodi.

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Na sasa ni wakati wa kuzindua saikologramu ya marejeleo iliyoandikwa na ComfyAnonimous (pamoja na marekebisho yetu ya kawaida) kwa ajili ya utekelezaji. Inageuka hii:

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Picha ya kuvutia sana, na hata mhemko - na huwezi kusema kwamba iliundwa kwa kutumia mfano huo huo ambao ulilipuliwa kabisa na maagizo ya kuchora watu waliolala kwenye nyasi. Wakati huo huo, mfumo hufanya kazi haraka sana - takriban 5-6 s kwa iteration kwa picha 1 megapixel kwenye GTX 1070 inaweza kuchukuliwa kiashiria heshima. Kwa kulinganisha: Kompyuta sawa katika ComfyUI sawa na faili sawa ya BAT hutoa picha za SDXL za saizi zinazofanana, ikitumia takriban sekunde 6-7 kwa kila marudio, kwa hivyo "C" inaweza kuzingatiwa kuwa ya kuhitaji sana kwenye vifaa vya PC ambavyo kizazi cha AI. inaendelea.

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Sasa hebu turekebishe vipimo vya turubai. Sio mbali na nodi ya "EmptySD3LatentImage", ambayo inawaweka, kuna "isiyofanya kazi" (kwa maana ya kutounganishwa na kitu chochote upande wowote) nodi ya kumbukumbu "Kumbuka", ambayo ina ukumbusho muhimu: jumla ya eneo la picha katika kesi ya SD3M inapaswa kuwa takriban 1 MPix, - kulingana na ambayo unapaswa kuchagua vipimo vya pande za turuba ya mstatili. Wacha tuziweke kama 1344x768 - takriban megapixels 1,03 zitatoka.

Tafadhali kumbuka: hapo juu ni node ya "Mbegu", ambapo mbegu yenyewe imeelezwa, katika kesi hii "945512652412924", na inaonyeshwa kuwa haipaswi kubadilika baada ya kizazi (parameter "iliyowekwa").

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Hebu tufanye cyclogram sawa na mbegu sawa, lakini kwa turuba ya mstatili. Inadhihirika mara moja kuwa muda wa jumla wa utekelezaji unachukua kidogo, ingawa kasi ya uwasilishaji inabaki sawa - chini ya sekunde 6 kwa kila marudio. Na hii ni ya kimantiki: kwa kuwa vidokezo vya maandishi havijabadilika, basi hakuna haja ya kupakia tena encoder (s) kwao. Picha inayotokana, kwa kweli, ni tofauti na ya kwanza, ya mraba, lakini sio kimsingi - muundo wa jumla, kama mtu angetarajia, umehifadhiwa.

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Sasa hebu tuzingatie nodi za "CLIPTextEncodeSD3" na "CLIP Text Encode (Negative Prompt)". Ya kwanza inasimama kwa sababu ina sehemu tatu za kuingiza mara moja; ukiondoa maandishi kutoka kwao, alama ambazo usimbaji zimekusudiwa zitaonekana - kutoka juu hadi chini ni CLIP G, CLIP L na T5XXL. Hapo awali, hakukuwa na nodi kama hizo katika ComfyUI kwa sababu dhahiri. Saikologramu ya marejeleo ina vidokezo vifupi vya nakala mbili za sehemu mbili za kwanza za maandishi (kwa vibadilishaji vya CLIP G na CLIP L) na moja pana zaidi kwa ya tatu - T5XXL. Ni wazi kwamba yaliyomo katika nyanja hizi zinaweza kuchezwa ndani ya mipaka pana, na uchunguzi wa kiwango ambacho kubadilisha maandishi ndani yao huathiri picha ya mwisho ni kazi isiyo ya kawaida, lakini ya kusisimua sana. Walakini, kwa sababu ambazo zitakuwa wazi baadaye kidogo, hatutaanza kushughulikia kwa karibu kwa sasa.

Lakini katika nodi ya "CLIP Text Encode (Negative Prompt)", kinyume chake, hakuna kitu maalum, lakini fahamu jinsi vigumu njia kutoka kwake hadi pembejeo inayofanana ya "conditioning" ya nodi kuu ya "KSampler" ni! Njia hii inagawanyika, na moja ya matawi yake (ya juu katika kesi hii) inaonyesha kuwa kuanzia 10% ya hatua za kizazi na hadi kukamilika kwake, mfumo hautazingatia wazo hasi hata kidogo (kupitisha njia kupitia nodi ya "ConditioningZeroOut" inamaanisha hali ya sifuri). Wakati tawi la pili linapitisha kidokezo hasi (pia kwa masharti na nusu ya uzito) katika usindikaji zaidi bila mabadiliko - lakini tu katika 10% ya kwanza ya jumla ya idadi ya hatua za kizazi.

#Ukungu kwa mbali

Kwa mara nyingine tena: 10% ya kwanza, yaani, hatua 3 kati ya 28 za kizazi zilizowekwa katika kesi hii, kidokezo hasi hupitishwa kwa nodi ya "KSampler", ambayo inashughulika kutoa picha katika nafasi fiche (katika nafasi ya pikseli, i.e. ndani ya mwanadamu. -picha inayoeleweka, matokeo ya matokeo yake yanatafsiriwa na node inayofuata, "VAE Decoder"), kwa njia ya kawaida: tawi la juu (pamoja na hali ya upya) haifanyi kazi, ni ya chini tu inafanya kazi. Kwa 90% iliyobaki ya hatua (25 kati ya 28 kwa upande wetu), dokezo hasi haifanyi kazi hata kidogo: tawi la juu la hali ya kupitisha linafanya kazi - nazo zimewekwa upya - na harakati kando ya chini imezuiwa na parameta ya mpaka ya kuanzisha nodi inayolingana "ConditioningSetTimestepRange". Sasa ni wazi kwa nini idadi ya waangalizi wanadai hivyo Vidokezo hasi vya SD3M kimsingi haviwezi kutumika, - athari kutoka kwao (ikiwa tunazingatia cyclogram hii ya kumbukumbu na kudhani kuwa sheria sawa zinatumika kwenye tovuti zilizo na kizazi cha mtandaoni kulingana na mfano wa SD3 Medium) ni ndogo.

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Na bado ipo: ukichukua tu na kuunganisha moja kwa moja matokeo ya nodi ya "CLIP Text Encode (Negative Prompt)" na ingizo linalolingana la "KSampler" (au uweke alama nodi zote za kati na masharti kando ya njia hii kama "inayoweza kuruka", "Bypass", ambayo itasababisha athari sawa), ubora wa picha ya mwisho utashuka sana. Hii, kwa njia, inaweza kuzingatiwa kama ushahidi usio wa moja kwa moja wa asili "isiyokamilika" ya SD3M, kwani, kwa kusema madhubuti, watengenezaji walipaswa kuwa na uwezo wa kurekebisha nguvu na umuhimu wa wazo hasi hata kabla ya kuachilia uzani wa mfano kwa kikoa cha umma. Matawi mawili ya masharti yaliyowekwa kwa busara ya kutumia kidokezo hasi ni aina ya kiraka, na kwa maana hii malalamiko kutoka kwa wapenda shauku kwamba "C" inapunguka kwa ukweli kwa matarajio yaliyotolewa na idara ya uuzaji ya Uthabiti AI kuhusiana nayo, tazama kuwa sawa.

Kutokuwepo kwa angalau mwongozo mfupi rasmi wa kufanya kazi na SD3M kumesababisha ukweli kwamba uvumi tayari unazunguka kwenye mtandao kwamba mtindo huu. hawakufunzwa hata kidogo kutumia viashiria hasi. Ambayo, kwa kweli, sio kweli, lakini kwa hali yoyote, vidokezo hivi lazima vitumike kwa njia tofauti kabisa, kuliko hii inajulikana kwa waendeshaji wa SD 1.5 na SDXL. Hasa, wanaopenda sana wanasema kwamba kuongeza maelezo ya kina ya uchafu mwingi iwezekanavyo kwenye uwanja mbaya (ndio, "nsfw, uchi" ya zamani haitoshi - lazima unyoosha mawazo yako) husababisha uboreshaji unaoonekana katika kuonekana hata msichana mashuhuri aliyelala kwenye nyasi. Ikiwa hii ni kweli au la haiwezi kuamuliwa bila ukaguzi wa kufikiria (na sio ukweli kwamba hata alama ya "18+" kwenye kichwa cha tovuti yetu italinda uchapishaji kutoka kwa kesi kutoka kwa wakereketwa wenye hasira wa maadili ikiwa tutahatarisha kuchapisha "dokezo la muujiza" lililowekwa pamoja na wapenda shauku - ingawa ni kwa Kiingereza). Hali hii ya kuchekesha inakumbusha tukio na mafundisho ya awali ya zama za kati dhidi ya upagani, shukrani ambayo - haswa kwa sababu yalikuwa na maelezo ya kina ya kile na jinsi Wakristo wenye heshima hawapaswi kufanya - angalau ushahidi mdogo wa maandishi umetufikia kuhusu imani na desturi za Rus kabla ya Ukristo.

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Sasa, ningependa kuamini, imekuwa wazi zaidi kwa nini kuzama zaidi katika utafiti wa SD3M katika hatua hii haionekani kuwa upotezaji wa busara zaidi wa wakati na bidii. Kwa kweli kuna jambo la kujadili na kuchunguza: na vigezo vya kizazi vilivyopendekezwa kabisa katika nodi ya “KSampler” (CFG - 4,5-5,0; idadi ya hatua - takriban 28; jozi ya sampuli/kipanga ratiba - pekee dpmpp_2m/sgm_uniform, vinginevyo ubora wa matokeo matone dhahiri); na kuenea kwa maana sana katika ubora wa kujitegemea wa vizazi vilivyo na vigezo sawa vya kuanzia, lakini kwa mbegu tofauti; na kuondokana na "laana ya kulala ndani/kwenye nyasi" (ambayo tayari suluhisho zisizo za kawaida sana zinapendekezwa); na, kwa kweli, kujua ni vigezo gani vya kizazi vinaathiriwa na kila moja ya vibadilishaji vitatu vya maandishi-to-toni - na jinsi, kuzitumia, kufikia kazi bora za Sanaa Nzuri (ikiwa kitu kama hicho na "C" kinawezekana. kwa kanuni, bila shaka).

Kwa kuongezea, kufukuzwa kwa Emad Mostak mnamo Machi na ComfyAnonimous mnamo Juni, na mbali nao peke yao, sio shida pekee ambazo zimeipata Utulivu AI. Kama Reuters inaripoti kwa kurejelea Habari, mwanzo huu wa Uingereza una (wakati wa kuandika nakala hii) kwa mara nyingine tena. afisa mkuu mtendaji aliyebadilika ambaye alikuwa Prem Akkaraju, mfuasi wa kundi maarufu la kimataifa la wawekezaji wa IT - na kwamba, kwa upande wake, yuko tayari kumwaga kiasi kikubwa cha pesa kwenye kampuni (tunazungumzia dola milioni 80 za Marekani) Nafasi ya Utulivu AI yenyewe kama muundo wa biashara leo haina msimamo; wengi wamekata tamaa wenye shauku wanatabiri mwisho wa haraka kwa hilo - na katika hali hiyo ni vigumu kutarajia kampuni kufanya kazi kwa mawazo hata juu ya makosa hayo ya wazi.

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Kwa bahati mbaya, sera ya utoaji leseni isiyofikiriwa vizuri inazuia jumuiya kutoleta matunda kwa SD3M, kama ilivyokuwa kwa SD 1.5 na SDXL. Angalau, vituo vya ukaguzi na zana kama vile LoRA kwa miundo miwili iliyopita zimehakikishiwa kubaki zinapatikana kwa utekelezaji wa ndani, hata wakati (na kama) Uthabiti AI inamaliza safari yake kama muundo wa kibiashara. Mara tu baada ya fiasco ya viziwi ya daraja la "C", sauti zilianza kusikika zaidi kwenye vikao maalum kwenye mtandao ili kuunga mkono uundaji wa mradi usio wa faida wa kukuza mtindo wa uzalishaji wa kubadilisha maandishi kuwa picha kulingana na ufadhili wa watu - na kwa sasa harakati hii inaanza kuchukua sura chini ya jina Fungua Mpango wa Mfano. Invoke (mojawapo ya majukwaa ya kizazi cha AI mtandaoni, inayolenga studio za kitaaluma), Comfy Org (timu inayohusika katika usaidizi na maendeleo ya ComfyUI), Civitai (haihitaji kuanzishwa) na timu nyuma ya LAION tayari wametangaza utayari wao wa kushiriki kikamilifu. jiunge nayo (hifadhidata ya picha zilizofafanuliwa, ambapo aina hizi za mifano hufunzwa zaidi).

Kwa hivyo, kwa mustakabali unaoonekana, matoleo mapya ya Warsha yatazingatia mifumo ambayo jamii tayari imeunda maboresho mengi na zana za ziada—modeli za "moja na nusu" na "Oversized". Labda wakati wa ushindi wa SD3M utafika bado, lakini ni vigumu hata kukisia ni lini hasa. Wakati huo huo, wale wanaopenda wanaweza kupakua kumbukumbu iliyo na vizazi vya SD3M vilivyoangaziwa katika makala haya (michoro ya mfuatano imeunganishwa moja kwa moja kwenye faili za PNG; buruta tu picha kutoka kwa File Explorer hadi kwenye nafasi ya kazi ya ComfyUI). Windows, ili kuzaliana mpangilio mzima na vigezo vya uzalishaji) hapa. Labda mmoja wa wasomaji wetu ataweza kugundua njia bora zaidi ya kusambaza maandishi katika sehemu tatu za vidokezo, kwa mfano, kabla ya programu za kawaida za Reddit na Hugging Face?

Makala mpya: Warsha kuhusu mchoro wa AI, sehemu ya tisa: SD3M - "C" kwa C

Vifaa vinavyohusiana:

Utulivu wa AI ulibadilisha usimamizi na kuvutia uwekezaji wa dola milioni 80.

Ilianzisha jenereta ya picha ya AI Imara ya Usambazaji wa Kati, ambayo inahitaji tu kadi ya video yenye kumbukumbu ya GB 5..

Utulivu AI imejaa deni na sasa inatafuta mnunuzi.

AI ya kuanzisha Utulivu AI itapunguza 10% ya wafanyikazi kutokana na kuongezeka kwa ushindani.

Usambazaji Imara wa 3.0 ulitangazwa - AI ya kuchora ilibadilisha usanifu na kujifunza kuandika.

Chanzo: 3dnews.ru

Nunua upangishaji wa kuaminika wa tovuti zilizo na ulinzi wa DDoS, seva za VPS VDS 🔥 Nunua upangishaji wa tovuti unaoaminika kwa ulinzi wa DDoS, seva za VPS VDS | ProHoster