ระบบการเรียนรู้ของเครื่องแบบกระจายที่เสถียรซึ่งดัดแปลงมาเพื่อการสังเคราะห์เพลง

โครงการ Riffusion พัฒนาตัวแปรของระบบการเรียนรู้ของเครื่อง Stable Diffusion ที่ดัดแปลงเพื่อสร้างเพลงแทนภาพ ดนตรีสามารถสังเคราะห์ได้จากคำอธิบายที่เป็นข้อความในภาษาธรรมชาติหรือตามเทมเพลตที่แนะนำ ส่วนประกอบการสังเคราะห์เพลงเขียนด้วยภาษา Python โดยใช้เฟรมเวิร์ก PyTorch และพร้อมใช้งานภายใต้ใบอนุญาต MIT การผูกกับอินเทอร์เฟซถูกนำมาใช้ในภาษา TypeScript และยังเผยแพร่ภายใต้ใบอนุญาต MIT โมเดลที่ผ่านการฝึกอบรมได้รับการเผยแพร่ภายใต้ใบอนุญาต Creative ML OpenRAIL-M เพื่อการใช้งานเชิงพาณิชย์

โปรเจ็กต์นี้มีความน่าสนใจตรงที่ยังคงใช้โมเดล "ข้อความเป็นรูปภาพ" และ "รูปภาพเป็นรูปภาพ" สำหรับการสร้างดนตรี แต่ปรับแต่งสเปกโตรแกรมเป็นรูปภาพ กล่าวอีกนัยหนึ่ง Stable Diffusion แบบคลาสสิกไม่ได้ฝึกฝนกับภาพถ่ายและรูปภาพ แต่กับภาพสเปกโตรแกรมที่สะท้อนการเปลี่ยนแปลงของความถี่และแอมพลิจูดของคลื่นเสียงเมื่อเวลาผ่านไป ดังนั้น สเปกโตรแกรมจึงถูกสร้างขึ้นที่เอาท์พุตด้วย ซึ่งจากนั้นจะถูกแปลงเป็นการแสดงเสียง

ระบบการเรียนรู้ของเครื่องแบบกระจายที่เสถียรซึ่งดัดแปลงมาเพื่อการสังเคราะห์เพลง

วิธีนี้ยังสามารถใช้เพื่อปรับเปลี่ยนการเรียบเรียงเสียงที่มีอยู่และการสังเคราะห์เพลงตัวอย่างได้ คล้ายกับการปรับเปลี่ยนภาพใน Stable Diffusion ตัวอย่างเช่น การสร้างสามารถตั้งค่าสเปกโตรแกรมตัวอย่างด้วยสไตล์อ้างอิง รวมสไตล์ที่แตกต่างกัน ทำการเปลี่ยนจากสไตล์หนึ่งไปอีกสไตล์หนึ่งได้อย่างราบรื่น หรือทำการเปลี่ยนแปลงเสียงที่มีอยู่เพื่อแก้ไขปัญหา เช่น การเพิ่มระดับเสียงของเครื่องดนตรีแต่ละชิ้น การเปลี่ยนจังหวะและ เปลี่ยนเครื่องมือ นอกจากนี้ รูปแบบยังใช้เพื่อสร้างการเรียบเรียงที่เล่นยาวนาน ซึ่งประกอบด้วยชุดข้อความที่อยู่ใกล้กัน ซึ่งจะเปลี่ยนแปลงเล็กน้อยเมื่อเวลาผ่านไป แฟรกเมนต์ที่สร้างแยกกันจะถูกรวมเข้าเป็นสตรีมต่อเนื่องโดยการประมาณค่าพารามิเตอร์ภายในของโมเดล

ระบบการเรียนรู้ของเครื่องแบบกระจายที่เสถียรซึ่งดัดแปลงมาเพื่อการสังเคราะห์เพลง

ในการสร้างสเปกตรัมจากเสียง จะใช้การแปลงฟูริเยร์แบบหน้าต่าง เมื่อสร้างเสียงใหม่จากสเปกโตรแกรม มีปัญหาในการกำหนดเฟส (มีเพียงความถี่และแอมพลิจูดเท่านั้นที่ปรากฏบนสเปกโตรแกรม) สำหรับการสร้างใหม่ซึ่งใช้อัลกอริธึมการประมาณของ Griffin-Lim



ที่มา: opennet.ru

เพิ่มความคิดเห็น