Hệ thống máy học khuếch tán ổn định được điều chỉnh để tổng hợp âm nhạc

Dự án Riffusion đang phát triển một phiên bản của hệ thống máy học Stable Diffusion, được điều chỉnh để tạo ra âm nhạc thay vì hình ảnh. Âm nhạc có thể được tổng hợp từ mô tả văn bản bằng ngôn ngữ tự nhiên hoặc dựa trên mẫu được đề xuất. Các thành phần tổng hợp âm nhạc được viết bằng Python sử dụng khung PyTorch và có sẵn theo giấy phép MIT. Liên kết giao diện được triển khai trong TypeScript và cũng được phân phối theo giấy phép MIT. Các mô hình đã đào tạo được cấp phép theo giấy phép Creative ML OpenRAIL-M cho phép sử dụng cho mục đích thương mại.

Dự án này thú vị ở chỗ nó tiếp tục sử dụng các mô hình “chuyển văn bản thành hình ảnh” và “từ hình ảnh thành hình ảnh” để tạo ra âm nhạc nhưng xử lý các biểu đồ phổ dưới dạng hình ảnh. Nói cách khác, Khuếch tán ổn định cổ điển được đào tạo không phải trên các bức ảnh và hình ảnh mà trên các hình ảnh của quang phổ phản ánh những thay đổi về tần số và biên độ của sóng âm thanh theo thời gian. Theo đó, một biểu đồ phổ cũng được hình thành ở đầu ra, sau đó được chuyển đổi thành biểu diễn âm thanh.

Hệ thống máy học khuếch tán ổn định được điều chỉnh để tổng hợp âm nhạc

Phương pháp này cũng có thể được sử dụng để sửa đổi các tác phẩm âm thanh hiện có và tổng hợp nhạc từ một mẫu, tương tự như sửa đổi hình ảnh trong Khuếch tán ổn định. Ví dụ: thế hệ có thể lấy mẫu các biểu đồ phổ với kiểu tham chiếu, kết hợp các kiểu khác nhau, thực hiện chuyển đổi mượt mà từ kiểu này sang kiểu khác hoặc thực hiện các thay đổi đối với âm thanh hiện có để giải quyết các vấn đề như tăng âm lượng của từng nhạc cụ, thay đổi nhịp điệu và thay đổi dụng cụ. Các mẫu cũng được sử dụng để tạo ra các tác phẩm có thời gian chơi dài, bao gồm một loạt các đoạn có khoảng cách gần nhau và thay đổi đôi chút theo thời gian. Các đoạn được tạo riêng biệt được kết hợp thành một luồng liên tục bằng cách nội suy các tham số bên trong của mô hình.

Hệ thống máy học khuếch tán ổn định được điều chỉnh để tổng hợp âm nhạc

Biến đổi Fourier cửa sổ được sử dụng để tạo ra biểu đồ phổ từ âm thanh. Khi tái tạo âm thanh từ biểu đồ phổ, một vấn đề nảy sinh khi xác định pha (chỉ có tần số và biên độ trên biểu đồ phổ), để tái tạo lại thuật toán gần đúng Griffin-Lim được sử dụng.



Nguồn: opennet.ru

Thêm một lời nhận xét