Stability AI-ը թողարկել է պատրաստի մոդելներ իր Stable Diffusion մեքենայական ուսուցման համակարգի համար, որը կարող է սինթեզել և փոփոխել պատկերները՝ հիմնվելով բնական լեզվի տեքստային նկարագրությունների վրա։ Մոդելները բաց կոդով են՝ Creative ML OpenRAIL-M թույլատրելի լիցենզիայի ներքո, որը թույլ է տալիս առևտրային օգտագործում։ Համակարգը մարզվել է 4000 NVIDIA A100 Ezra-1 գրաֆիկական պրոցեսորներից բաղկացած կլաստերի և 5 միլիարդ պատկերներից բաղկացած LAION-5.85B հավաքածուի միջոցով՝ տեքստային նկարագրություններով։ Նախկինում նեյրոնային ցանցերի մարզման և պատկերների ստեղծման գործիքների կոդը բաց կոդով էր՝ MIT լիցենզիայի ներքո։
Պատրաստի մոդելի առկայությունը և բավականին համեստ համակարգային պահանջները, որոնք թույլ էին տալիս սկսել փորձարկումներ ստանդարտ գրաֆիկական պրոցեսորներով համակարգչի վրա, հանգեցրին մի շարք հարակից նախագծերի ի հայտ գալուն.
- textual-inversion (կոդ) - հավելում, որը թույլ է տալիս սինթեզել պատկերները տվյալ կերպարի, օբյեկտի կամ ոճի հետ: Բնօրինակ Stable Diffusion-ում սինթեզված պատկերների առարկաները պատահական են և անվերահսկելի: Առաջարկվող հավելումը թույլ է տալիս ավելացնել ձեր սեփական տեսողական օբյեկտները, դրանք կապել հիմնաբառերի հետ և օգտագործել դրանք սինթեզում:
Օրինակ, սովորական Stable Diffusion-ում դուք կարող եք խնդրել համակարգին ստեղծել «կատվի նավակի մեջ» պատկեր: Բացի այդ, դուք կարող եք պարզաբանել կատվի և նավակի բնութագրերը, բայց անկանխատեսելի է, թե որ կատուն և նավը կսինթեզվեն: Տեքստային ինվերսիան թույլ է տալիս համակարգը վարժեցնել ձեր կատվի կամ նավակի պատկերով և սինթեզել պատկերը կոնկրետ կատվի կամ նավակի հետ: Նմանապես, այն կարող է նաև փոխարինել պատկերի տարրերը որոշակի առարկաներով, սինթեզի համար տեսողական ոճի օրինակ դնել և հասկացություններ սահմանել (օրինակ, բժիշկների ամբողջ բազմազանությունից կարող եք օգտագործել ավելի ճշգրիտ և որակյալ ընտրություն ցանկալի ոճով):

- stable-diffusion-animation - անիմացիոն (շարժվող) պատկերների ստեղծում՝ հիմնված Stable Diffusion-ում ստեղծված նկարների միջև ինտերպոլացիայի վրա:
- stable_diffusion.openvino (կոդ) - Stable Diffusion-ի պորտ, որն օգտագործում է միայն CPU-ն հաշվարկների համար, թույլ տալով փորձարկումներ կատարել հզոր GPU-ներ չունեցող համակարգերի վրա։ Այս ծրագիրը պահանջում է OpenVINO գրադարանի կողմից աջակցվող պրոցեսոր։ OpenVINO-ն պաշտոնապես տրամադրում է պլագիններ Intel պրոցեսորների համար՝ AVX2, AVX-512, AVX512_BF16 և SSE ընդլայնումներով, ինչպես նաև Raspberry Pi 4 Model B, Apple Mac mini և NVIDIA Jetson Nano տախտակների համար։ Ոչ պաշտոնապես, հնարավոր է օգտագործել OpenVINO-ն AMD Ryzen պրոցեսորների վրա։
- sdamd-ը պորտ է AMD GPU-ների համար:
- Տեսանյութերի սինթեզի նախնական իրականացում:
- stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - գրաֆիկական միջերեսներ Stable Diffusion-ի միջոցով պատկերներ ստեղծելու համար:
- beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI — վեբ ինտերֆեյսներ պատկերի սինթեզի համար՝ օգտագործելով Stable Diffusion-ը։
- Փլագիններ՝ Stable Diffusion-ը GIMP-ի, Figma-ի, Blender-ի և Photoshop-ի հետ ինտեգրելու համար:
Բացի այդ, Google-ը հրապարակել է RawNeRF (RAW Neural Radiance Fields) մեքենայական ուսուցման համակարգի կոդը, որը թույլ է տալիս, հիմնվելով մի քանի RAW պատկերների տվյալների վրա, բարելավել մթության մեջ և վատ լուսավորության պայմաններում նկարահանված բարձր աղմկոտ պատկերների որակը։ Բացի աղմուկի հեռացումից, նախագծի կողմից մշակված գործիքները թույլ են տալիս մեծացնել մանրամասները, վերացնել շողացումը, սինթեզել HDR-ը և փոխել լուսանկարներում ընդհանուր լուսավորությունը, ինչպես նաև վերստեղծել օբյեկտների եռաչափ դիրքը մի քանի կադրերից՝ տարբեր անկյուններով, փոխել դիտակետը, մանիպուլացնել ֆոկուսը և ստեղծել շարժվող պատկերներ։




Source: opennet.ru

