
కంప్యూటర్ దృష్టిలో న్యూరల్ నెట్వర్క్లు చురుకుగా అభివృద్ధి చెందుతున్నాయి, అనేక సమస్యలు ఇప్పటికీ పరిష్కారానికి దూరంగా ఉన్నాయి. మీ ఫీల్డ్లో ట్రెండ్లో ఉండటానికి, Twitterలో ఇన్ఫ్లుయెన్సర్లను అనుసరించండి మరియు arXiv.orgలో సంబంధిత కథనాలను చదవండి. కానీ కంప్యూటర్ విజన్ (ICCV) 2019పై జరిగే ఇంటర్నేషనల్ కాన్ఫరెన్స్కు వెళ్లే అవకాశం మాకు లభించింది. ఈ ఏడాది దక్షిణ కొరియాలో జరుగుతోంది. ఇప్పుడు మేము చూసిన మరియు నేర్చుకున్న వాటిని హబ్ర్ పాఠకులతో పంచుకోవాలనుకుంటున్నాము.
Yandex నుండి మాకు చాలా మంది ఉన్నారు: సెల్ఫ్ డ్రైవింగ్ కార్ల డెవలపర్లు, పరిశోధకులు మరియు సేవల్లో CV టాస్క్లతో వ్యవహరించే వారు వచ్చారు. కానీ ఇప్పుడు మేము మా బృందం యొక్క కొంచెం ఆత్మాశ్రయ దృక్పథాన్ని ప్రదర్శించాలనుకుంటున్నాము - మెషిన్ ఇంటెలిజెన్స్ లాబొరేటరీ (యాండెక్స్ మిలాబ్). ఇతర అబ్బాయిలు బహుశా వారి స్వంత కోణం నుండి సమావేశాన్ని చూశారు.
ప్రయోగశాల ఏమి చేస్తుంది?మేము వినోద ప్రయోజనాల కోసం చిత్రాల ఉత్పత్తి మరియు సంగీతానికి సంబంధించిన ప్రయోగాత్మక ప్రాజెక్ట్లను చేస్తాము. వినియోగదారు నుండి కంటెంట్ను మార్చడానికి మిమ్మల్ని అనుమతించే న్యూరల్ నెట్వర్క్లపై మాకు ప్రత్యేక ఆసక్తి ఉంది (ఫోటోల కోసం, ఈ పనిని ఇమేజ్ మానిప్యులేషన్ అంటారు). YaC 2019 సమావేశం నుండి మా పని ఫలితం.
శాస్త్రీయ సమావేశాలు చాలా ఉన్నాయి, కానీ అగ్రస్థానంలో ఉన్నవి, A* సమావేశాలు అని పిలవబడేవి, ఇక్కడ అత్యంత ఆసక్తికరమైన మరియు ముఖ్యమైన సాంకేతికతలపై కథనాలు సాధారణంగా ప్రచురించబడతాయి. A* సమావేశాల యొక్క ఖచ్చితమైన జాబితా లేదు, ఇక్కడ సుమారుగా మరియు అసంపూర్ణమైన జాబితా ఉంది: NeurIPS (గతంలో NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. చివరి ముగ్గురు సివి టాపిక్లో ప్రత్యేకత కలిగి ఉన్నారు.
చూపులో ICCV: పోస్టర్లు, ట్యుటోరియల్లు, వర్క్షాప్లు, స్టాండ్లు
కాన్ఫరెన్స్ 1075 పత్రాలను అందుకుంది, 7500 మంది పాల్గొనేవారు రష్యా నుండి వచ్చారు, Yandex, Skoltech, Samsung AI సెంటర్ మాస్కో మరియు సమారా విశ్వవిద్యాలయం నుండి వచ్చిన కథనాలు ఉన్నాయి. ఈ సంవత్సరం, చాలా మంది ప్రముఖ పరిశోధకులు ICCVని సందర్శించలేదు, కానీ, ఉదాహరణకు, అలెక్సీ (అలియోషా) ఎఫ్రోస్, అతను ఎల్లప్పుడూ చాలా మందిని ఆకర్షిస్తాడు:

గణాంకాలు 




అటువంటి అన్ని సమావేశాలలో, కథనాలు పోస్టర్ల రూపంలో ప్రదర్శించబడతాయి ( ఫార్మాట్ గురించి), మరియు ఉత్తమమైనవి కూడా చిన్న నివేదికల రూపంలో ప్రదర్శించబడతాయి.
ఇక్కడ రష్యా నుండి కొన్ని రచనలు ఉన్నాయి 


ట్యుటోరియల్స్తో మీరు ఒక నిర్దిష్ట సబ్జెక్ట్ ప్రాంతంలోకి ప్రవేశించవచ్చు, ఇది విశ్వవిద్యాలయంలో ఉపన్యాసాన్ని గుర్తు చేస్తుంది. ఇది సాధారణంగా నిర్దిష్ట రచనల గురించి మాట్లాడకుండా ఒక వ్యక్తిచే చదవబడుతుంది. కూల్ ట్యుటోరియల్ యొక్క ఉదాహరణ ():

వర్క్షాప్లలో, దీనికి విరుద్ధంగా, వారు కథనాల గురించి మాట్లాడుతారు. సాధారణంగా ఇవి కొన్ని ఇరుకైన అంశంలోని రచనలు, విద్యార్థుల యొక్క అన్ని తాజా పని గురించి ప్రయోగశాల అధిపతుల నుండి కథనాలు లేదా ప్రధాన సమావేశానికి అంగీకరించని కథనాలు.
స్పాన్సర్ చేసే కంపెనీలు స్టాండ్లతో ICCVకి వస్తాయి. ఈ సంవత్సరం, Google, Facebook, Amazon మరియు అనేక ఇతర అంతర్జాతీయ కంపెనీలు వచ్చాయి, అలాగే పెద్ద సంఖ్యలో స్టార్టప్లు - కొరియన్ మరియు చైనీస్. ముఖ్యంగా డేటా ట్యాగింగ్లో ప్రత్యేకత కలిగిన అనేక స్టార్టప్లు ఉన్నాయి. స్టాండ్ల వద్ద ప్రదర్శనలు ఉన్నాయి, మీరు వ్యాపార వస్తువులను తీసుకొని ప్రశ్నలు అడగవచ్చు. వేట ప్రయోజనాల కోసం, స్పాన్సర్ చేసే కంపెనీలు పార్టీలను కలిగి ఉంటాయి. మీకు ఆసక్తి ఉందని మరియు మీరు ఇంటర్వ్యూలలో ఉత్తీర్ణత సాధించగలరని రిక్రూటర్లను మీరు ఒప్పిస్తే మీరు వాటిని చేరుకోవచ్చు. మీరు ఒక కథనాన్ని ప్రచురించినట్లయితే (లేదా, అదనంగా, దానిని సమర్పించినట్లయితే), ప్రారంభించి లేదా PhD పూర్తి చేస్తున్నట్లయితే, ఇది ఒక ప్లస్, కానీ కొన్నిసార్లు మీరు కంపెనీ ఇంజనీర్లకు ఆసక్తికరమైన ప్రశ్నలను అడగడం ద్వారా స్టాండ్ వద్ద చర్చలు జరపవచ్చు.
పోకడలు
సమావేశం మొత్తం CV ఫీల్డ్ను పరిశీలించడానికి మిమ్మల్ని అనుమతిస్తుంది. నిర్దిష్ట అంశంపై పోస్టర్ల సంఖ్యను బట్టి, అంశం ఎంత హాట్గా ఉందో మీరు అంచనా వేయవచ్చు. కీలక పదాల ఆధారంగా కొన్ని ముగింపులు తమను తాము సూచిస్తాయి:

జీరో-షాట్, వన్-షాట్, కొన్ని-షాట్, స్వీయ-పర్యవేక్షించడం మరియు సెమీ-పర్యవేక్షించడం: దీర్ఘకాలంగా అధ్యయనం చేయబడిన పనులకు కొత్త విధానాలు
ప్రజలు డేటాను మరింత సమర్థవంతంగా ఉపయోగించడం నేర్చుకుంటున్నారు. ఉదాహరణకు, లో శిక్షణ సెట్లో లేని జంతువుల ముఖ కవళికలను రూపొందించడం సాధ్యమవుతుంది (అనువర్తనంలో, అనేక సూచన చిత్రాలను అందించడం ద్వారా). డీప్ ఇమేజ్ ప్రియర్ యొక్క ఆలోచనలు అభివృద్ధి చేయబడ్డాయి మరియు ఇప్పుడు GAN నెట్వర్క్లు ఒకే చిత్రంపై శిక్షణ పొందవచ్చు - మేము దీని గురించి క్రింద మాట్లాడుతాము . మీరు ముందస్తు శిక్షణ కోసం స్వీయ-పర్యవేక్షణను ఉపయోగించవచ్చు (చిత్రం యొక్క భ్రమణ కోణాన్ని అంచనా వేయడం వంటి సమలేఖన డేటాను సంశ్లేషణ చేయగల సమస్యను పరిష్కరించడం) లేదా లేబుల్ చేయబడిన మరియు లేబుల్ చేయని డేటా నుండి ఏకకాలంలో నేర్చుకోవచ్చు. ఈ కోణంలో, వ్యాసం సృష్టికి కిరీటంగా పరిగణించబడుతుంది . మరియు ImageNetలో ముందస్తు శిక్షణ ఇక్కడ ఉంది సహాయపడుతుంది.


3D మరియు 360°
ఫోటోల కోసం ఎక్కువగా పరిష్కరించబడిన సమస్యలకు (విభజన, గుర్తింపు) 3D మోడల్లు మరియు పనోరమిక్ వీడియోల కోసం అదనపు పరిశోధన అవసరం. RGB మరియు RGB-D లను 3Dకి మార్చడం గురించి మనం చాలా కథనాలను చూశాము. మానవ భంగిమ అంచనా వంటి కొన్ని సమస్యలను 3D మోడల్లకు తరలించడం ద్వారా మరింత సహజంగా పరిష్కరించవచ్చు. మెష్, పాయింట్ క్లౌడ్, వోక్సెల్లు లేదా SDF రూపంలో - XNUMXD మోడల్లను సరిగ్గా ఎలా సూచించాలనే దానిపై ఇంకా ఏకాభిప్రాయం లేదు. ఇక్కడ మరొక ఎంపిక ఉంది:

పనోరమాలలో, గోళంపై మెలికలు చురుకుగా అభివృద్ధి చెందుతున్నాయి (చూడండి. ) మరియు ఫ్రేమ్లోని కీలక వస్తువుల కోసం శోధించండి.

భంగిమ గుర్తింపు మరియు మానవ కదలిక అంచనా
2Dలో భంగిమను గుర్తించడంలో ఇప్పటికే పురోగతులు ఉన్నాయి - ఇప్పుడు ఫోకస్ బహుళ కెమెరాలతో మరియు 3Dలో పని చేయడం వైపు మళ్లింది. ఉదాహరణకు, మానవ శరీరం గుండా వెళుతున్నప్పుడు Wi-Fi సిగ్నల్లో మార్పులను ట్రాక్ చేయడం ద్వారా గోడ ద్వారా అస్థిపంజరాన్ని గుర్తించడం కూడా సాధ్యమే.
హ్యాండ్ కీపాయింట్ డిటెక్షన్ రంగంలో చాలా పని జరిగింది. ఇద్దరు వ్యక్తుల మధ్య సంభాషణల వీడియోల ఆధారంగా కొత్త డేటాసెట్లు కనిపించాయి - ఇప్పుడు మీరు సంభాషణ యొక్క ఆడియో లేదా వచనం నుండి చేతి సంజ్ఞలను అంచనా వేయవచ్చు! ఐ ట్రాకింగ్ టాస్క్లలో (గాజ్ ఎస్టిమేషన్) అదే పురోగతి సాధించబడింది.


మానవ కదలికల అంచనాకు సంబంధించిన పెద్ద సమూహాన్ని కూడా గుర్తించవచ్చు (ఉదాహరణకు, లేదా ) పని ముఖ్యమైనది మరియు రచయితలతో సంభాషణల ఆధారంగా, స్వయంప్రతిపత్త డ్రైవింగ్లో పాదచారుల ప్రవర్తనను విశ్లేషించడానికి చాలా తరచుగా ఉపయోగించబడుతుంది.
ఫోటోలు మరియు వీడియోలలో వ్యక్తులతో మానిప్యులేషన్లు, వర్చువల్ ఫిట్టింగ్ రూమ్లు
వివరించదగిన పారామితుల ప్రకారం ముఖ చిత్రాలను మార్చడం ప్రధాన ధోరణి. ఆలోచనలు: ఒక చిత్రం ఆధారంగా డీప్ఫేక్, ఫేషియల్ రెండరింగ్ ఆధారంగా వ్యక్తీకరణను మార్చడం (), ఫీడ్ఫార్వర్డ్-మార్పు పారామితులు (ఉదాహరణకు, ) శైలి బదిలీలు అంశం యొక్క శీర్షిక నుండి పని యొక్క అనువర్తనానికి మారాయి. వర్చువల్ ఫిట్టింగ్ గదులు వేరే కథ, అవి దాదాపు ఎల్లప్పుడూ పేలవంగా పనిచేస్తాయి; ప్రదర్శనలు.


స్కెచ్లు/గ్రాఫ్ల నుండి జనరేషన్
"మునుపటి అనుభవం ఆధారంగా గ్రిడ్ ఏదైనా ఉత్పత్తి చేయనివ్వండి" అనే ఆలోచన యొక్క అభివృద్ధి మరొకటి మారింది: "మనకు ఆసక్తి ఉన్న ఎంపికను గ్రిడ్ని చూపుదాం."
గైడెడ్ ఇన్పెయింట్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది: వినియోగదారు చిత్రం యొక్క చెరిపివేయబడిన ప్రదేశంలో ముఖం యొక్క భాగాన్ని పెయింటింగ్ చేయడం పూర్తి చేయవచ్చు మరియు పూర్తయినదానిపై ఆధారపడి పునరుద్ధరించబడిన చిత్రాన్ని పొందవచ్చు.

ICCV కోసం 25 Adobe కథనాలలో ఒకటి రెండు GANలను మిళితం చేస్తుంది: ఒకటి వినియోగదారు కోసం స్కెచ్ని పూర్తి చేస్తుంది, మరొకటి స్కెచ్ నుండి ఫోటోరియలిస్టిక్ చిత్రాన్ని రూపొందిస్తుంది ().

ఇంతకుముందు, ఇమేజ్ జనరేషన్లో గ్రాఫ్లు అవసరం లేదు, కానీ ఇప్పుడు వాటిని దృశ్యం గురించి జ్ఞానం యొక్క కంటైనర్గా మార్చారు. ఐసిసివి ఫలితాల ఆధారంగా బెస్ట్ పేపర్ హానరబుల్ మెన్షన్స్ అవార్డు కూడా ఆర్టికల్ గెలుచుకుంది . సాధారణంగా, మీరు వాటిని వివిధ మార్గాల్లో ఉపయోగించవచ్చు: చిత్రాల నుండి గ్రాఫ్లను రూపొందించండి లేదా గ్రాఫ్ల నుండి చిత్రాలు మరియు వచనాలను రూపొందించండి.

ప్రజలు మరియు కార్లను తిరిగి గుర్తించడం, గుంపు పరిమాణాన్ని లెక్కించడం (!)
అనేక కథనాలు వ్యక్తులను ట్రాక్ చేయడానికి మరియు వ్యక్తులను మరియు యంత్రాలను తిరిగి గుర్తించడానికి అంకితం చేయబడ్డాయి. అయితే చైనా నుండి వచ్చిన క్రౌడ్ కౌంటింగ్పై కథనాల సమూహం మాకు ఆశ్చర్యం కలిగించింది.
పోస్టర్లు 




కానీ ఫేస్బుక్, దీనికి విరుద్ధంగా, ఫోటోను అనామకం చేస్తుంది. మరియు ఇది దీన్ని ఆసక్తికరమైన రీతిలో చేస్తుంది: ఇది ప్రత్యేకమైన వివరాలు లేకుండా ముఖాన్ని రూపొందించడానికి న్యూరల్ నెట్వర్క్కు శిక్షణ ఇస్తుంది - సారూప్యమైనది, కానీ ముఖ గుర్తింపు వ్యవస్థల ద్వారా సరిగ్గా గుర్తించబడేంత సారూప్యమైనది కాదు.

విరోధి దాడుల నుండి రక్షణ
వాస్తవ ప్రపంచంలో (సెల్ఫ్ డ్రైవింగ్ కార్లలో, ముఖ గుర్తింపులో) కంప్యూటర్ విజన్ అప్లికేషన్ల అభివృద్ధితో, అటువంటి వ్యవస్థల విశ్వసనీయత ప్రశ్న ఎక్కువగా తలెత్తుతుంది. CVని పూర్తిగా ఉపయోగించడానికి, సిస్టమ్ విరోధి దాడులకు నిరోధకతను కలిగి ఉందని మీరు నిర్ధారించుకోవాలి - అందుకే దాడుల గురించి కంటే వారి నుండి రక్షణ గురించి తక్కువ కథనాలు లేవు. నెట్వర్క్ ప్రిడిక్షన్లను (సెలెన్స్ మ్యాప్) వివరించడం మరియు ఫలితంపై విశ్వాసాన్ని కొలిచేందుకు చాలా పని జరిగింది.
కంబైన్డ్ టాస్క్లు
ఒక లక్ష్యంతో చాలా పనులలో, నాణ్యతను మెరుగుపరిచే అవకాశాలు ఆచరణాత్మకంగా అయిపోయాయి, నాణ్యతను మరింత పెంచడానికి కొత్త దిశలలో ఒకటి ఒకే సమయంలో అనేక సమస్యలను పరిష్కరించడానికి న్యూరల్ నెట్వర్క్లను బోధించడం. ఉదాహరణలు:
- యాక్షన్ ప్రిడిక్షన్ + ఆప్టికల్ ఫ్లో ప్రిడిక్షన్,
— వీడియో ప్రదర్శన + భాష ప్రదర్శన (),
- .
విభజన, భంగిమ నిర్ధారణ మరియు జంతువులను తిరిగి గుర్తించడంపై కథనాలు కూడా ఉన్నాయి!


ముఖ్యాంశాలు
దాదాపు అన్ని కథనాలు ముందుగానే తెలిసినవి, టెక్స్ట్ arXiv.orgలో అందుబాటులో ఉంది. అందువల్ల, ఎవ్రీబడీ డ్యాన్స్ నౌ, FUNIT, Image2StyleGAN వంటి రచనల ప్రదర్శన చాలా వింతగా అనిపిస్తుంది - ఇవి చాలా ఉపయోగకరమైన రచనలు, కానీ కొత్తవి కావు. శాస్త్రీయ ప్రచురణల యొక్క శాస్త్రీయ ప్రక్రియ ఇక్కడ విచ్ఛిన్నమవుతున్నట్లు కనిపిస్తోంది - సైన్స్ చాలా త్వరగా కదులుతోంది.
ఉత్తమ రచనలను గుర్తించడం చాలా కష్టం - వాటిలో చాలా ఉన్నాయి, విషయాలు భిన్నంగా ఉంటాయి. అనేక కథనాలు వచ్చాయి .
ఇది మా అంశం కాబట్టి, ఇమేజ్ మానిప్యులేషన్ కోణం నుండి ఆసక్తికరమైన పనులను హైలైట్ చేయాలనుకుంటున్నాము. అవి మాకు చాలా తాజాగా మరియు ఆసక్తికరంగా మారాయి (మేము ఆబ్జెక్టివ్గా నటించము).
SinGAN (ఉత్తమ పేపర్ అవార్డు) మరియు InGAN
సింగన్: , , .
ఇంగన్: , , .
డిమిత్రి ఉల్యనోవ్, ఆండ్రియా వెడాల్డి మరియు విక్టర్ లెంపిట్స్కీ నుండి డీప్ ఇమేజ్ ప్రియర్ ఐడియా అభివృద్ధి. డేటాసెట్లో GANకి శిక్షణ ఇవ్వడానికి బదులుగా, నెట్వర్క్లు దానిలోని గణాంకాలను గుర్తుంచుకోవడానికి అదే చిత్రం యొక్క శకలాలు నుండి నేర్చుకుంటాయి. శిక్షణ పొందిన నెట్వర్క్ ఫోటోలను (SinGAN) సవరించడానికి మరియు యానిమేట్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది లేదా అసలు చిత్రం యొక్క అల్లికల నుండి ఏదైనా పరిమాణంలో కొత్త చిత్రాలను రూపొందించడానికి, స్థానిక నిర్మాణాన్ని (InGAN) భద్రపరుస్తుంది.
సింగన్:

ఇంగన్:

GAN ఏమి ఉత్పత్తి చేయలేదో చూడటం
.
చిత్రాలను రూపొందించే న్యూరల్ నెట్వర్క్లు తరచుగా యాదృచ్ఛిక శబ్దం యొక్క వెక్టర్ను ఇన్పుట్గా తీసుకుంటాయి. శిక్షణ పొందిన నెట్వర్క్లో, అనేక ఇన్పుట్ వెక్టర్లు ఖాళీని ఏర్పరుస్తాయి, చిన్న కదలికలు చిత్రంలో చిన్న మార్పులకు దారితీస్తాయి. ఆప్టిమైజేషన్ ఉపయోగించి, మీరు విలోమ సమస్యను పరిష్కరించవచ్చు: వాస్తవ ప్రపంచం నుండి చిత్రం కోసం తగిన ఇన్పుట్ వెక్టర్ను కనుగొనండి. న్యూరల్ నెట్వర్క్లో పూర్తిగా సరిపోలే చిత్రాన్ని కనుగొనడం దాదాపు ఎప్పటికీ సాధ్యం కాదని రచయిత చూపారు. చిత్రంలో కొన్ని వస్తువులు ఉత్పత్తి చేయబడవు (స్పష్టంగా ఈ వస్తువుల యొక్క పెద్ద వైవిధ్యం కారణంగా).

GAN చిత్రాల మొత్తం స్థలాన్ని కవర్ చేయదని రచయిత ఊహిస్తారు, కానీ జున్ను వంటి రంధ్రాలతో నింపబడిన కొన్ని ఉపసమితులు మాత్రమే. మేము దానిలో వాస్తవ ప్రపంచం నుండి ఫోటోలను కనుగొనడానికి ప్రయత్నించినప్పుడు, మేము ఎల్లప్పుడూ విఫలమవుతాము, ఎందుకంటే GAN ఇప్పటికీ పూర్తిగా నిజమైన ఫోటోలను రూపొందించదు. నెట్వర్క్ యొక్క బరువులను మార్చడం ద్వారా మాత్రమే నిజమైన మరియు రూపొందించబడిన చిత్రాల మధ్య వ్యత్యాసాలను అధిగమించవచ్చు, అంటే, నిర్దిష్ట ఫోటో కోసం దాన్ని మళ్లీ శిక్షణ ఇవ్వడం ద్వారా.

నిర్దిష్ట ఫోటో కోసం నెట్వర్క్ అదనంగా శిక్షణ పొందినప్పుడు, మీరు ఈ చిత్రంతో వివిధ అవకతవకలను ప్రయత్నించవచ్చు. దిగువ ఉదాహరణలో, ఫోటోకు విండో జోడించబడింది మరియు కిచెన్ యూనిట్పై నెట్వర్క్ అదనంగా ప్రతిబింబాలను రూపొందించింది. దీని అర్థం నెట్వర్క్, ఫోటోగ్రఫీ కోసం అదనపు శిక్షణ తర్వాత కూడా, దృశ్యంలో వస్తువుల మధ్య కనెక్షన్ని చూసే సామర్థ్యాన్ని కోల్పోలేదు.

GANalize: అభిజ్ఞా చిత్ర లక్షణాల దృశ్య నిర్వచనాల వైపు
, .
ఈ పని నుండి విధానాన్ని ఉపయోగించి, మీరు న్యూరల్ నెట్వర్క్ నేర్చుకున్న వాటిని దృశ్యమానం చేయవచ్చు మరియు విశ్లేషించవచ్చు. నెట్వర్క్ పేర్కొన్న అంచనాలను రూపొందించే చిత్రాలను రూపొందించడానికి GANకి శిక్షణ ఇవ్వాలని రచయితలు ప్రతిపాదించారు. ఫోటో జ్ఞాపకశక్తిని అంచనా వేసే మెమ్నెట్తో సహా కథనం అనేక నెట్వర్క్లను ఉదాహరణలుగా ఉపయోగించింది. మంచి జ్ఞాపకశక్తి కోసం, ఫోటోలోని వస్తువు ఇలా ఉండాలి:
- కేంద్రానికి దగ్గరగా ఉండాలి
- మరింత గుండ్రంగా లేదా చతురస్రాకారంలో మరియు సరళమైన నిర్మాణాన్ని కలిగి ఉంటుంది,
- ఏకరీతి నేపథ్యంలో ఉండండి,
- వ్యక్తీకరణ కళ్ళు కలిగి ఉంటాయి (కనీసం కుక్క ఫోటోల కోసం),
- ప్రకాశవంతంగా, మరింత సంతృప్తంగా, కొన్ని సందర్భాల్లో, ఎర్రగా ఉంటుంది.

లిక్విడ్ వార్పింగ్ GAN: హ్యూమన్ మోషన్ ఇమిటేషన్, స్వరూపం బదిలీ మరియు నవల వీక్షణ సంశ్లేషణ కోసం ఏకీకృత ఫ్రేమ్వర్క్
, , .
వ్యక్తుల ఫోటోలను ఒక సమయంలో ఒక ఫోటోను రూపొందించడానికి పైప్లైన్. రచయితలు ఒక వ్యక్తి యొక్క కదలికను మరొకరికి బదిలీ చేయడం, వ్యక్తుల మధ్య బట్టలు బదిలీ చేయడం మరియు ఒక వ్యక్తి యొక్క కొత్త కోణాలను రూపొందించడం వంటి విజయవంతమైన ఉదాహరణలను చూపుతారు - అన్నీ ఒక ఫోటో నుండి. మునుపటి పనిలా కాకుండా, ఇక్కడ మేము 2D (భంగిమ)లోని కీలక పాయింట్లను కాకుండా, పరిస్థితులను సృష్టించడానికి శరీరం యొక్క 3D మెష్ (భంగిమ + ఆకారం) ఉపయోగిస్తాము. అసలు చిత్రం నుండి జనరేట్ చేసిన దానికి (లిక్విడ్ వార్పింగ్ బ్లాక్) సమాచారాన్ని ఎలా బదిలీ చేయాలో కూడా రచయితలు కనుగొన్నారు. ఫలితాలు మంచిగా కనిపిస్తాయి, కానీ ఫలిత చిత్రం యొక్క రిజల్యూషన్ 256x256 మాత్రమే. పోలిక కోసం, ఒక సంవత్సరం క్రితం కనిపించిన vid2vid, 2048x1024 రిజల్యూషన్లో రూపొందించగలదు, అయితే దీనికి డేటాసెట్గా 10 నిమిషాల వీడియో రికార్డింగ్ అవసరం.

FSGAN: సబ్జెక్ట్ అజ్ఞేయ ముఖం మార్పిడి మరియు పునర్నిర్మాణం
, .
మొదట అసాధారణమైనది ఏమీ లేదని అనిపిస్తుంది: ఎక్కువ లేదా తక్కువ సాధారణ నాణ్యత కలిగిన డీప్ఫేక్. కానీ పని యొక్క ప్రధాన సాధన ఒక చిత్రం నుండి ముఖాల ప్రత్యామ్నాయం. మునుపటి రచనల వలె కాకుండా, నిర్దిష్ట వ్యక్తి యొక్క అనేక ఛాయాచిత్రాలపై శిక్షణ అవసరం. పైప్లైన్ గజిబిజిగా మారింది (పునరాకృతి మరియు విభజన, వీక్షణ ఇంటర్పోలేషన్, ఇన్పెయింటింగ్, బ్లెండింగ్) మరియు చాలా సాంకేతిక హక్స్తో, కానీ ఫలితం విలువైనది.

ఇమేజ్ రీసింథసిస్ ద్వారా ఊహించనిది గుర్తించడం
.
ఏ సెమాంటిక్ సెగ్మెంటేషన్ క్లాస్లోకి రాని ఒక వస్తువు తన ముందు హఠాత్తుగా కనిపించిందని డ్రోన్ ఎలా అర్థం చేసుకోగలదు? అనేక పద్ధతులు ఉన్నాయి, కానీ రచయితలు దాని పూర్వీకుల కంటే మెరుగ్గా పనిచేసే కొత్త, సహజమైన అల్గోరిథంను ప్రతిపాదించారు. ఇన్పుట్ రోడ్ ఇమేజ్ నుండి సెమాంటిక్ సెగ్మెంటేషన్ అంచనా వేయబడింది. ఇది GAN (pix2pixHD)కి ఇన్పుట్గా అందించబడుతుంది, ఇది సెమాంటిక్ మ్యాప్ నుండి మాత్రమే అసలు చిత్రాన్ని పునరుద్ధరించడానికి ప్రయత్నిస్తుంది. ఏ సెగ్మెంట్లలోకి రాని క్రమరాహిత్యాలు అవుట్పుట్ మరియు రూపొందించిన ఇమేజ్లో గణనీయంగా తేడా ఉంటుంది. మూడు చిత్రాలు (ఒరిజినల్, సెగ్మెంటేషన్ మరియు పునర్నిర్మించినవి) క్రమరాహిత్యాలను అంచనా వేసే మరొక నెట్వర్క్లోకి అందించబడతాయి. దీని కోసం డేటాసెట్ బాగా తెలిసిన సిటీస్కేప్స్ డేటాసెట్ నుండి రూపొందించబడింది, సెమాంటిక్ సెగ్మెంటేషన్పై తరగతులను యాదృచ్ఛికంగా మారుస్తుంది. ఆసక్తికరంగా, ఈ నేపధ్యంలో, ఒక కుక్క రోడ్డు మధ్యలో నిలబడి ఉంది, కానీ సరిగ్గా విభజించబడింది (అంటే దాని కోసం ఒక తరగతి ఉంది), సిస్టమ్ దానిని గుర్తించగలిగినందున, ఇది క్రమరాహిత్యం కాదు.

తీర్మానం
సమావేశానికి ముందు, మీ శాస్త్రీయ ఆసక్తులు ఏమిటో, మీరు ఏ ప్రదర్శనలకు హాజరు కావాలనుకుంటున్నారో మరియు ఎవరితో మాట్లాడాలో తెలుసుకోవడం ముఖ్యం. అప్పుడు ప్రతిదీ మరింత ఉత్పాదకంగా ఉంటుంది.
ICCV అనేది మొదటి మరియు అన్నిటికంటే, నెట్వర్కింగ్. అగ్రశ్రేణి సంస్థలు మరియు అత్యుత్తమ శాస్త్రీయ విభాగాలు ఉన్నాయని మీరు అర్థం చేసుకున్నారు, మీరు దీన్ని అర్థం చేసుకోవడం, వ్యక్తులను తెలుసుకోవడం ప్రారంభిస్తారు. మరియు మీరు arXivలో కథనాలను చదవవచ్చు - మరియు జ్ఞానాన్ని పొందడానికి మీరు ఎక్కడికీ వెళ్లనవసరం లేదని ఇది చాలా బాగుంది.
అదనంగా, సమావేశంలో మీరు మీకు దగ్గరగా లేని అంశాలలో లోతుగా డైవ్ చేయవచ్చు మరియు ట్రెండ్లను చూడవచ్చు. బాగా, చదవడానికి వ్యాసాల జాబితాను వ్రాయండి. మీరు విద్యార్థి అయితే, మీరు పరిశ్రమకు చెందిన వారైతే, కొత్త యజమానితో మరియు కంపెనీ అయితే, మిమ్మల్ని మీరు చూపించుకోవడానికి సంభావ్య ఉపాధ్యాయుడిని కలవడానికి ఇది ఒక అవకాశం.
దీనికి సభ్యత్వాన్ని పొందండి ! ఇది వ్యక్తిగత ప్రాజెక్ట్: మేము కలిసి దీనిని నడిపిస్తున్నాము . కాన్ఫరెన్స్లో మాకు నచ్చిన అన్ని రచనలను ఇక్కడ పోస్ట్ చేసాము: .
మూలం: www.habr.com
