Müzik sentezi için uyarlanmış Kararlı Difüzyon makine öğrenimi sistemi

Riffusion projesi, makine öğrenimi sistemi Stable Diffusion'ın görüntüler yerine müzik üretecek şekilde uyarlanmış bir versiyonunu geliştiriyor. Müzik, doğal dildeki bir metin açıklamasından veya önerilen bir şablona dayalı olarak sentezlenebilir. Müzik sentezi bileşenleri Python'da PyTorch çerçevesi kullanılarak yazılmıştır ve MIT lisansı altında mevcuttur. Arayüz bağlama TypeScript'te uygulanır ve ayrıca MIT lisansı altında dağıtılır. Eğitimli modeller, ticari kullanım için izin verilen Creative ML OpenRAIL-M lisansı kapsamında lisanslanır.

Proje, müzik üretmek için "metinden görüntüye" ve "görüntüden görüntüye" modellerini kullanmaya devam etmesi, ancak spektrogramları görüntü olarak manipüle etmesi açısından ilginçtir. Başka bir deyişle, klasik Kararlı Yayılma, fotoğraf ve resimlerle değil, zaman içinde ses dalgasının frekansında ve genliğinde meydana gelen değişiklikleri yansıtan spektrogram görüntüleri üzerinde eğitilir. Buna göre çıkışta bir spektrogram da oluşturulur ve bu daha sonra bir ses temsiline dönüştürülür.

Müzik sentezi için uyarlanmış Kararlı Difüzyon makine öğrenimi sistemi

Bu yöntem aynı zamanda Stabil Difüzyondaki görüntü modifikasyonuna benzer şekilde mevcut ses kompozisyonlarını değiştirmek ve bir örnekten müzik sentezlemek için de kullanılabilir. Örneğin nesil, spektrogramları bir referans stiliyle örnekleyebilir, farklı stilleri birleştirebilir, bir stilden diğerine yumuşak geçişler yapabilir veya bireysel enstrümanların ses düzeyini artırmak, ritmi değiştirmek ve ses tonunu değiştirmek gibi sorunları çözmek için mevcut seste değişiklikler yapabilir. enstrümanlar. Örnekler aynı zamanda zaman içinde biraz değişen, yakın aralıklı bir dizi pasajdan oluşan, uzun süreli çalınan kompozisyonlar oluşturmak için de kullanılır. Ayrı olarak oluşturulan pasajlar, modelin dahili parametrelerinin enterpolasyonu kullanılarak sürekli bir akış halinde birleştirilir.

Müzik sentezi için uyarlanmış Kararlı Difüzyon makine öğrenimi sistemi

Sesten bir spektrogram oluşturmak için pencereli Fourier dönüşümü kullanılır. Bir spektrogramdan sesi yeniden oluştururken, yeniden inşası için Griffin-Lim yaklaşım algoritmasının kullanıldığı fazın belirlenmesinde (spektrogramda yalnızca frekans ve genlik mevcuttur) bir sorun ortaya çıkar.



Kaynak: opennet.ru

Yorum ekle