Կայուն դիֆուզիոն մեքենայական ուսուցման համակարգ՝ հարմարեցված երաժշտության սինթեզի համար

Riffusion նախագիծը մշակում է Stable Diffusion մեքենայական ուսուցման համակարգի տարբերակը, որը հարմարեցված է պատկերների փոխարեն երաժշտություն ստեղծելու համար: Երաժշտությունը կարող է սինթեզվել բնական լեզվով տեքստի նկարագրությունից կամ առաջարկվող կաղապարի հիման վրա: Երաժշտության սինթեզի բաղադրիչները գրված են Python-ում, օգտագործելով PyTorch շրջանակը և հասանելի են MIT լիցենզիայի ներքո: Ինտերֆեյսի կապումն իրականացվում է TypeScript-ում և տարածվում է նաև MIT լիցենզիայի ներքո: Վերապատրաստված մոդելները լիցենզավորված են Creative ML OpenRAIL-M թույլատրելի արտոնագրով առևտրային օգտագործման համար:

Նախագիծը հետաքրքիր է նրանով, որ այն շարունակում է օգտագործել «տեքստից պատկեր» և «պատկերից պատկեր» մոդելները երաժշտություն ստեղծելու համար, սակայն սպեկտրոգրամները որպես պատկեր մանիպուլյացիա են անում: Այլ կերպ ասած, դասական Stable Diffusion-ը վարժվում է ոչ թե լուսանկարների և նկարների, այլ սպեկտրոգրամների պատկերների վրա, որոնք արտացոլում են ձայնային ալիքի հաճախականության և ամպլիտուդի փոփոխությունները ժամանակի ընթացքում: Համապատասխանաբար, ելքի վրա ձևավորվում է նաև սպեկտրոգրամ, որն այնուհետև վերածվում է ձայնային ներկայացման:

Կայուն դիֆուզիոն մեքենայական ուսուցման համակարգ՝ հարմարեցված երաժշտության սինթեզի համար

Մեթոդը կարող է օգտագործվել նաև գոյություն ունեցող ձայնային կոմպոզիցիաները փոփոխելու և նմուշից երաժշտություն սինթեզելու համար, որը նման է Stable Diffusion-ում պատկերի փոփոխմանը: Օրինակ, գեներացիան կարող է նմուշառել սպեկտրոգրամները հղման ոճով, համատեղել տարբեր ոճեր, կատարել սահուն անցումներ մի ոճից մյուսը կամ փոփոխություններ կատարել գոյություն ունեցող ձայնում՝ լուծելու այնպիսի խնդիրներ, ինչպիսիք են առանձին գործիքների ձայնի բարձրացումը, ռիթմը փոխելը և փոխելը։ գործիքներ. Նմուշներն օգտագործվում են նաև երկար նվագող կոմպոզիցիաներ ստեղծելու համար, որոնք կազմված են մի շարք սերտորեն բաժանված հատվածներից, որոնք ժամանակի ընթացքում մի փոքր տարբերվում են: Առանձին ձևավորված հատվածները միավորվում են շարունակական հոսքի մեջ՝ օգտագործելով մոդելի ներքին պարամետրերի ինտերպոլացիա:

Կայուն դիֆուզիոն մեքենայական ուսուցման համակարգ՝ հարմարեցված երաժշտության սինթեզի համար

Պատուհանով Ֆուրիեի փոխակերպումն օգտագործվում է ձայնից սպեկտրոգրամ ստեղծելու համար: Սպեկտրոգրամից ձայնը վերստեղծելիս խնդիր է առաջանում փուլի որոշման հետ կապված (սպեկտրոգրամի վրա առկա են միայն հաճախականությունը և ամպլիտուդը), որի վերակառուցման համար օգտագործվում է Գրիֆին-Լիմ մոտարկման ալգորիթմը։



Source: opennet.ru

Добавить комментарий