OpenAI ద్వారా ప్రతిపాదించబడిన మెషీన్ లెర్నింగ్ సిస్టమ్ DALL-E 2 యొక్క బహిరంగ అమలు ప్రచురించబడింది మరియు సహజ భాషలో వచన వివరణ ఆధారంగా వాస్తవిక చిత్రాలు మరియు పెయింటింగ్లను సంశ్లేషణ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది, అలాగే చిత్రాలను సవరించడానికి సహజ భాషలో ఆదేశాలను వర్తింపజేస్తుంది ( ఉదాహరణకు, చిత్రంలో వస్తువులను జోడించండి, తొలగించండి లేదా తరలించండి ). OpenAI యొక్క అసలు DALL-E 2 మోడల్లు ప్రచురించబడలేదు, కానీ పద్ధతిని వివరించే కాగితం అందుబాటులో ఉంది. ఇప్పటికే ఉన్న వివరణ ఆధారంగా, స్వతంత్ర పరిశోధకులు పైథాన్లో వ్రాసిన ప్రత్యామ్నాయ అమలును సిద్ధం చేశారు, Pytorch ఫ్రేమ్వర్క్ని ఉపయోగించి మరియు MIT లైసెన్స్ క్రింద పంపిణీ చేశారు.
DALL-E యొక్క మొదటి తరం యొక్క మునుపు ప్రచురించిన అమలుతో పోలిస్తే, కొత్త సంస్కరణ చిత్రం యొక్క వివరణకు మరింత ఖచ్చితమైన సరిపోలికను అందిస్తుంది, ఎక్కువ ఫోటోరియలిజాన్ని అనుమతిస్తుంది మరియు అధిక రిజల్యూషన్లలో చిత్రాలను రూపొందించడాన్ని సాధ్యం చేస్తుంది. మోడల్కు శిక్షణ ఇవ్వడానికి సిస్టమ్కు పెద్ద వనరులు అవసరం; ఉదాహరణకు, DALL-E 2 యొక్క అసలైన సంస్కరణకు శిక్షణ ఇవ్వడానికి GPUలో 100-200 వేల గంటల కంప్యూటింగ్ అవసరం, అనగా. 2 NVIDIA Tesla V4 GPUలతో సుమారు 256-100 వారాల లెక్కలు.
అదే రచయిత పొడిగించిన సంస్కరణను అభివృద్ధి చేయడం ప్రారంభించాడు - DALLE2 వీడియో, టెక్స్ట్ వివరణ నుండి వీడియోను సంశ్లేషణ చేయడం లక్ష్యంగా పెట్టుకుంది. విడిగా, రష్యన్ భాషలో వివరణలను గుర్తించడానికి స్వీకరించబడిన మొదటి తరం DALL-E యొక్క బహిరంగ అమలుతో Sberbank అభివృద్ధి చేసిన రు-డల్లె ప్రాజెక్ట్ను మేము గమనించవచ్చు.
మూలం: opennet.ru