సంగీత సంశ్లేషణ కోసం స్వీకరించబడిన స్థిరమైన డిఫ్యూజన్ మెషిన్ లెర్నింగ్ సిస్టమ్

Riffusion ప్రాజెక్ట్ మెషీన్ లెర్నింగ్ సిస్టమ్ స్టేబుల్ డిఫ్యూజన్ యొక్క సంస్కరణను అభివృద్ధి చేస్తోంది, ఇది చిత్రాలకు బదులుగా సంగీతాన్ని రూపొందించడానికి అనువుగా ఉంటుంది. సహజ భాషలో వచన వివరణ నుండి లేదా ప్రతిపాదిత టెంప్లేట్ ఆధారంగా సంగీతాన్ని సంశ్లేషణ చేయవచ్చు. సంగీత సంశ్లేషణ భాగాలు PyTorch ఫ్రేమ్‌వర్క్‌ను ఉపయోగించి పైథాన్‌లో వ్రాయబడ్డాయి మరియు MIT లైసెన్స్ క్రింద అందుబాటులో ఉంటాయి. ఇంటర్‌ఫేస్ బైండింగ్ టైప్‌స్క్రిప్ట్‌లో అమలు చేయబడుతుంది మరియు MIT లైసెన్స్ క్రింద కూడా పంపిణీ చేయబడుతుంది. శిక్షణ పొందిన మోడల్‌లు వాణిజ్య ఉపయోగం కోసం అనుమతించబడిన క్రియేటివ్ ML OpenRAIL-M లైసెన్స్ క్రింద లైసెన్స్ పొందాయి.

ప్రాజెక్ట్ ఆసక్తికరంగా ఉంది, ఇది సంగీతాన్ని రూపొందించడానికి "టెక్స్ట్-టు-ఇమేజ్" మరియు "ఇమేజ్-టు-ఇమేజ్" మోడల్‌లను ఉపయోగించడం కొనసాగిస్తుంది, అయితే స్పెక్ట్రోగ్రామ్‌లను ఇమేజ్‌లుగా మార్చుతుంది. మరో మాటలో చెప్పాలంటే, క్లాసిక్ స్టేబుల్ డిఫ్యూజన్ ఛాయాచిత్రాలు మరియు చిత్రాలపై కాకుండా, కాలక్రమేణా సౌండ్ వేవ్ యొక్క ఫ్రీక్వెన్సీ మరియు వ్యాప్తిలో మార్పులను ప్రతిబింబించే స్పెక్ట్రోగ్రామ్‌ల చిత్రాలపై శిక్షణ పొందుతుంది. దీని ప్రకారం, అవుట్‌పుట్ వద్ద స్పెక్ట్రోగ్రామ్ కూడా ఏర్పడుతుంది, అది ఆడియో రిప్రజెంటేషన్‌గా మార్చబడుతుంది.

సంగీత సంశ్లేషణ కోసం స్వీకరించబడిన స్థిరమైన డిఫ్యూజన్ మెషిన్ లెర్నింగ్ సిస్టమ్

ఈ పద్ధతి ఇప్పటికే ఉన్న సౌండ్ కంపోజిషన్‌లను సవరించడానికి మరియు ఒక నమూనా నుండి సంగీతాన్ని సంశ్లేషణ చేయడానికి కూడా ఉపయోగించవచ్చు, ఇది స్థిరమైన వ్యాప్తిలో ఇమేజ్ సవరణ మాదిరిగానే ఉంటుంది. ఉదాహరణకు, తరం స్పెక్ట్రోగ్రామ్‌లను రిఫరెన్స్ స్టైల్‌తో శాంపిల్ చేయవచ్చు, విభిన్న స్టైల్‌లను మిళితం చేయవచ్చు, ఒక స్టైల్ నుండి మరొక స్టైల్‌కు మృదువైన మార్పులను చేయవచ్చు లేదా వ్యక్తిగత పరికరాల వాల్యూమ్‌ను పెంచడం, లయను మార్చడం మరియు మార్చడం వంటి సమస్యలను పరిష్కరించడానికి ఇప్పటికే ఉన్న ధ్వనికి మార్పులు చేయవచ్చు. సాధన. చాలా కాలం పాటు ప్లే అయ్యే కంపోజిషన్‌లను రూపొందించడానికి కూడా నమూనాలు ఉపయోగించబడతాయి, ఇవి కాలక్రమేణా కొద్దిగా మారుతూ ఉండే దగ్గరి అంతరం గల భాగాల శ్రేణితో కూడి ఉంటాయి. మోడల్ యొక్క అంతర్గత పారామితుల ఇంటర్‌పోలేషన్‌ను ఉపయోగించి విడిగా రూపొందించబడిన గద్యాలై నిరంతర ప్రవాహంలో మిళితం చేయబడతాయి.

సంగీత సంశ్లేషణ కోసం స్వీకరించబడిన స్థిరమైన డిఫ్యూజన్ మెషిన్ లెర్నింగ్ సిస్టమ్

ధ్వని నుండి స్పెక్ట్రోగ్రామ్‌ను రూపొందించడానికి విండోడ్ ఫోరియర్ పరివర్తన ఉపయోగించబడుతుంది. స్పెక్ట్రోగ్రామ్ నుండి ధ్వనిని పునఃసృష్టిస్తున్నప్పుడు, దశను నిర్ణయించడంలో సమస్య తలెత్తుతుంది (స్పెక్ట్రోగ్రామ్‌లో ఫ్రీక్వెన్సీ మరియు వ్యాప్తి మాత్రమే ఉంటుంది), దీని పునర్నిర్మాణం కోసం గ్రిఫిన్-లిమ్ ఉజ్జాయింపు అల్గోరిథం ఉపయోగించబడుతుంది.



మూలం: opennet.ru

ఒక వ్యాఖ్యను జోడించండి