Տեքստի նկարագրության հիման վրա պատկերների սինթեզի մեքենայական ուսուցման համակարգի ներդրում

Հրապարակվել է OpenAI-ի կողմից առաջարկված DALL-E 2 մեքենայական ուսուցման համակարգի բաց իրականացումը, որը թույլ է տալիս սինթեզել իրատեսական պատկերներ և նկարներ՝ հիմնված բնական լեզվով տեքստի նկարագրության վրա, ինչպես նաև կիրառել բնական լեզվով հրամաններ՝ պատկերները խմբագրելու համար ( օրինակ՝ ավելացրեք, ջնջեք կամ տեղափոխեք պատկերի օբյեկտները): OpenAI-ի օրիգինալ DALL-E 2 մոդելները հրապարակված չեն, սակայն մեթոդը մանրամասնող փաստաթուղթ հասանելի է: Հիմնվելով գոյություն ունեցող նկարագրության վրա՝ անկախ հետազոտողները պատրաստել են Python-ով գրված այլընտրանքային իրականացում՝ օգտագործելով Pytorch շրջանակը և տարածվել MIT լիցենզիայի ներքո:

Տեքստի նկարագրության հիման վրա պատկերների սինթեզի մեքենայական ուսուցման համակարգի ներդրումՏեքստի նկարագրության հիման վրա պատկերների սինթեզի մեքենայական ուսուցման համակարգի ներդրում

Համեմատած DALL-E-ի առաջին սերնդի նախկինում հրապարակված ներդրման հետ՝ նոր տարբերակն ապահովում է պատկերի ավելի ճշգրիտ համապատասխանություն նկարագրությանը, թույլ է տալիս ավելի մեծ ֆոտոռեալիզմ և հնարավորություն է տալիս ավելի բարձր լուծաչափով պատկերներ ստեղծել: Համակարգը պահանջում է մեծ ռեսուրսներ՝ մոդելը վարժեցնելու համար, օրինակ՝ DALL-E 2-ի օրիգինալ տարբերակի վերապատրաստումը պահանջում է 100-200 հազար ժամ հաշվողական գրաֆիկ GPU-ի վրա, այսինքն. մոտ 2-4 շաբաթվա հաշվարկ 256 NVIDIA Tesla V100 GPU-ով:

Տեքստի նկարագրության հիման վրա պատկերների սինթեզի մեքենայական ուսուցման համակարգի ներդրում

Նույն հեղինակը սկսեց նաև մշակել ընդլայնված տարբերակը՝ DALLE2 Video, որի նպատակն էր տեքստային նկարագրությունից տեսանյութը սինթեզել: Առանձին-առանձին, մենք կարող ենք նշել ru-dalle նախագիծը, որը մշակվել է Սբերբանկի կողմից, առաջին սերնդի DALL-E-ի բաց իրականացմամբ, հարմարեցված ռուսերեն նկարագրությունները ճանաչելու համար:

Source: opennet.ru

Добавить комментарий