టెక్స్ట్ డిస్క్రిప్షన్ ఆధారంగా ఇమేజ్ సింథసిస్ కోసం మెషిన్ లెర్నింగ్ సిస్టమ్ అమలు

OpenAI ద్వారా ప్రతిపాదించబడిన మెషీన్ లెర్నింగ్ సిస్టమ్ DALL-E 2 యొక్క బహిరంగ అమలు ప్రచురించబడింది మరియు సహజ భాషలో వచన వివరణ ఆధారంగా వాస్తవిక చిత్రాలు మరియు పెయింటింగ్‌లను సంశ్లేషణ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది, అలాగే చిత్రాలను సవరించడానికి సహజ భాషలో ఆదేశాలను వర్తింపజేస్తుంది ( ఉదాహరణకు, చిత్రంలో వస్తువులను జోడించండి, తొలగించండి లేదా తరలించండి ). OpenAI యొక్క అసలు DALL-E 2 మోడల్‌లు ప్రచురించబడలేదు, కానీ పద్ధతిని వివరించే కాగితం అందుబాటులో ఉంది. ఇప్పటికే ఉన్న వివరణ ఆధారంగా, స్వతంత్ర పరిశోధకులు పైథాన్‌లో వ్రాసిన ప్రత్యామ్నాయ అమలును సిద్ధం చేశారు, Pytorch ఫ్రేమ్‌వర్క్‌ని ఉపయోగించి మరియు MIT లైసెన్స్ క్రింద పంపిణీ చేశారు.

టెక్స్ట్ డిస్క్రిప్షన్ ఆధారంగా ఇమేజ్ సింథసిస్ కోసం మెషిన్ లెర్నింగ్ సిస్టమ్ అమలుటెక్స్ట్ డిస్క్రిప్షన్ ఆధారంగా ఇమేజ్ సింథసిస్ కోసం మెషిన్ లెర్నింగ్ సిస్టమ్ అమలు

DALL-E యొక్క మొదటి తరం యొక్క మునుపు ప్రచురించిన అమలుతో పోలిస్తే, కొత్త సంస్కరణ చిత్రం యొక్క వివరణకు మరింత ఖచ్చితమైన సరిపోలికను అందిస్తుంది, ఎక్కువ ఫోటోరియలిజాన్ని అనుమతిస్తుంది మరియు అధిక రిజల్యూషన్‌లలో చిత్రాలను రూపొందించడాన్ని సాధ్యం చేస్తుంది. మోడల్‌కు శిక్షణ ఇవ్వడానికి సిస్టమ్‌కు పెద్ద వనరులు అవసరం; ఉదాహరణకు, DALL-E 2 యొక్క అసలైన సంస్కరణకు శిక్షణ ఇవ్వడానికి GPUలో 100-200 వేల గంటల కంప్యూటింగ్ అవసరం, అనగా. 2 NVIDIA Tesla V4 GPUలతో సుమారు 256-100 వారాల లెక్కలు.

టెక్స్ట్ డిస్క్రిప్షన్ ఆధారంగా ఇమేజ్ సింథసిస్ కోసం మెషిన్ లెర్నింగ్ సిస్టమ్ అమలు

అదే రచయిత పొడిగించిన సంస్కరణను అభివృద్ధి చేయడం ప్రారంభించాడు - DALLE2 వీడియో, టెక్స్ట్ వివరణ నుండి వీడియోను సంశ్లేషణ చేయడం లక్ష్యంగా పెట్టుకుంది. విడిగా, రష్యన్ భాషలో వివరణలను గుర్తించడానికి స్వీకరించబడిన మొదటి తరం DALL-E యొక్క బహిరంగ అమలుతో Sberbank అభివృద్ధి చేసిన రు-డల్లె ప్రాజెక్ట్‌ను మేము గమనించవచ్చు.

మూలం: opennet.ru

ఒక వ్యాఖ్యను జోడించండి