Σύστημα μηχανικής εκμάθησης Stable Diffusion προσαρμοσμένο για σύνθεση μουσικής

Το έργο Riffusion αναπτύσσει μια έκδοση του συστήματος μηχανικής εκμάθησης Stable Diffusion, προσαρμοσμένο να δημιουργεί μουσική αντί για εικόνες. Η μουσική μπορεί να συντεθεί από μια περιγραφή κειμένου σε φυσική γλώσσα ή να βασίζεται σε ένα προτεινόμενο πρότυπο. Τα στοιχεία σύνθεσης μουσικής είναι γραμμένα σε Python χρησιμοποιώντας το πλαίσιο PyTorch και είναι διαθέσιμα με την άδεια MIT. Η σύνδεση της διεπαφής υλοποιείται στο TypeScript και διανέμεται επίσης με την άδεια MIT. Τα εκπαιδευμένα μοντέλα αδειοδοτούνται με άδεια Creative ML OpenRAIL-M για εμπορική χρήση.

Το έργο είναι ενδιαφέρον καθώς συνεχίζει να χρησιμοποιεί τα μοντέλα «κείμενο σε εικόνα» και «εικόνα σε εικόνα» για τη δημιουργία μουσικής, αλλά χειρίζεται τα φασματογράμματα ως εικόνες. Με άλλα λόγια, το κλασικό Stable Diffusion εκπαιδεύεται όχι σε φωτογραφίες και εικόνες, αλλά σε εικόνες φασματογραμμάτων που αντανακλούν αλλαγές στη συχνότητα και το πλάτος ενός ηχητικού κύματος με την πάροδο του χρόνου. Αντίστοιχα, σχηματίζεται επίσης ένα φασματόγραμμα στην έξοδο, το οποίο στη συνέχεια μετατρέπεται σε ηχητική αναπαράσταση.

Σύστημα μηχανικής εκμάθησης Stable Diffusion προσαρμοσμένο για σύνθεση μουσικής

Η μέθοδος μπορεί επίσης να χρησιμοποιηθεί για την τροποποίηση υπαρχουσών συνθέσεων ήχου και τη σύνθεση μουσικής από ένα δείγμα, παρόμοια με την τροποποίηση εικόνας στο Stable Diffusion. Για παράδειγμα, η παραγωγή μπορεί να δοκιμάσει φασματογράμματα με στυλ αναφοράς, να συνδυάσει διαφορετικά στυλ, να κάνει ομαλές μεταβάσεις από το ένα στυλ στο άλλο ή να κάνει αλλαγές σε έναν υπάρχοντα ήχο για να λύσει προβλήματα όπως η αύξηση της έντασης των μεμονωμένων οργάνων, η αλλαγή του ρυθμού και η αντικατάσταση όργανα. Τα δείγματα χρησιμοποιούνται επίσης για τη δημιουργία συνθέσεων μακράς διάρκειας, που αποτελούνται από μια σειρά αποσπασμάτων που είναι κοντά το ένα στο άλλο και ποικίλλουν ελαφρώς με την πάροδο του χρόνου. Τα χωριστά δημιουργούμενα περάσματα συνδυάζονται σε ένα συνεχές ρεύμα χρησιμοποιώντας παρεμβολή των εσωτερικών παραμέτρων του μοντέλου.

Σύστημα μηχανικής εκμάθησης Stable Diffusion προσαρμοσμένο για σύνθεση μουσικής

Ένας μετασχηματισμός Fourier με παράθυρο χρησιμοποιείται για τη δημιουργία ενός φασματογράμματος από ήχο. Κατά την αναδημιουργία ήχου από ένα φασματόγραμμα, προκύπτει πρόβλημα με τον προσδιορισμό της φάσης (μόνο η συχνότητα και το πλάτος υπάρχουν στο φασματογράφημα), για την ανακατασκευή της οποίας χρησιμοποιείται ο αλγόριθμος προσέγγισης Griffin-Lim.



Πηγή: opennet.ru

Προσθέστε ένα σχόλιο