Хөгжмийн нийлэгжилтэнд тохирсон Тогтвортой Diffusion машин сургалтын систем

Riffusion төсөл нь зургийн оронд хөгжим үүсгэхэд тохируулсан Stable Diffusion машин сургалтын системийн хувилбарыг боловсруулж байна. Хөгжмийг байгалийн хэл дээрх текстийн тайлбараас эсвэл санал болгож буй загварт үндэслэн нэгтгэж болно. Хөгжмийн синтезийн бүрэлдэхүүн хэсгүүдийг PyTorch framework ашиглан Python хэл дээр бичсэн бөгөөд MIT лицензийн дагуу ашиглах боломжтой. Интерфейсийн холболтыг TypeScript дээр хэрэгжүүлдэг бөгөөд MIT лицензийн дагуу түгээдэг. Сургалтанд хамрагдсан загварууд нь арилжааны зориулалтаар ашиглах зөвшөөрөлтэй Creative ML OpenRAIL-M лицензийн дагуу лицензтэй.

Энэхүү төсөл нь хөгжим үүсгэхийн тулд "текстээс зураг" болон "зурагнаас зураг" загваруудыг үргэлжлүүлэн ашигладаг боловч спектрограммыг дүрс болгон хувиргаж байгаагаараа сонирхолтой юм. Өөрөөр хэлбэл, сонгодог Тогтвортой тархалтыг гэрэл зураг, зураг дээр биш, харин дууны долгионы давтамж, далайцын өөрчлөлтийг тусгасан спектрограммын зураг дээр сургадаг. Үүний дагуу гаралт дээр спектрограмм үүсдэг бөгөөд дараа нь аудио дүрслэл болгон хувиргадаг.

Хөгжмийн нийлэгжилтэнд тохирсон Тогтвортой Diffusion машин сургалтын систем

Энэ аргыг тогтвортой тархалт дахь зургийн өөрчлөлттэй адил одоо байгаа дууны найруулгыг өөрчлөх, дээжээс хөгжмийг нэгтгэхэд ашиглаж болно. Жишээ нь, үе шат нь лавлагааны хэв маяг бүхий спектрограммуудыг түүвэрлэх, өөр өөр хэв маягийг хослуулах, нэг хэв маягаас нөгөөд шилжих жигд шилжилт хийх, эсвэл бие даасан хөгжмийн зэмсгийн дууны хэмжээг нэмэгдүүлэх, хэмнэлийг өөрчлөх, өөрчлөх зэрэг асуудлыг шийдэхийн тулд одоо байгаа дууг өөрчлөх боломжтой. багаж хэрэгсэл. Дээжийг мөн цаг хугацааны явцад бага зэрэг өөрчлөгддөг, хоорондоо нягт уялдаатай цуврал хэсгүүдээс бүрдсэн урт тоглодог зохиолыг бүтээхэд ашигладаг. Тус тусад нь үүсгэсэн хэсгүүдийг загварын дотоод параметрүүдийн интерполяцийг ашиглан тасралтгүй урсгалд нэгтгэдэг.

Хөгжмийн нийлэгжилтэнд тохирсон Тогтвортой Diffusion машин сургалтын систем

Цонхтой Фурье хувиргалтыг дуунаас спектрограмм үүсгэхэд ашигладаг. Спектрограммаас дууг дахин үүсгэх үед Гриффин-Лимийн ойролцоо алгоритмыг сэргээн босгоход ашигладаг фазыг (зөвхөн давтамж ба далайц нь спектрограм дээр байдаг) тодорхойлоход асуудал үүсдэг.



Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх