కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో న్యూరల్ నెట్‌వర్క్‌లు చురుకుగా అభివృద్ధి చెందుతున్నాయి, అనేక సమస్యలు ఇప్పటికీ పరిష్కారానికి దూరంగా ఉన్నాయి. మీ ఫీల్డ్‌లో ట్రెండ్‌లో ఉండటానికి, Twitterలో ఇన్‌ఫ్లుయెన్సర్‌లను అనుసరించండి మరియు arXiv.orgలో సంబంధిత కథనాలను చదవండి. కానీ కంప్యూటర్ విజన్ (ICCV) 2019పై జరిగే ఇంటర్నేషనల్ కాన్ఫరెన్స్‌కు వెళ్లే అవకాశం మాకు లభించింది. ఈ ఏడాది దక్షిణ కొరియాలో జరుగుతోంది. ఇప్పుడు మేము చూసిన మరియు నేర్చుకున్న వాటిని హబ్ర్ పాఠకులతో పంచుకోవాలనుకుంటున్నాము.

Yandex నుండి మాకు చాలా మంది ఉన్నారు: సెల్ఫ్ డ్రైవింగ్ కార్ల డెవలపర్లు, పరిశోధకులు మరియు సేవల్లో CV టాస్క్‌లతో వ్యవహరించే వారు వచ్చారు. కానీ ఇప్పుడు మేము మా బృందం యొక్క కొంచెం ఆత్మాశ్రయ దృక్పథాన్ని ప్రదర్శించాలనుకుంటున్నాము - మెషిన్ ఇంటెలిజెన్స్ లాబొరేటరీ (యాండెక్స్ మిలాబ్). ఇతర అబ్బాయిలు బహుశా వారి స్వంత కోణం నుండి సమావేశాన్ని చూశారు.

ప్రయోగశాల ఏమి చేస్తుంది?మేము వినోద ప్రయోజనాల కోసం చిత్రాల ఉత్పత్తి మరియు సంగీతానికి సంబంధించిన ప్రయోగాత్మక ప్రాజెక్ట్‌లను చేస్తాము. వినియోగదారు నుండి కంటెంట్‌ను మార్చడానికి మిమ్మల్ని అనుమతించే న్యూరల్ నెట్‌వర్క్‌లపై మాకు ప్రత్యేక ఆసక్తి ఉంది (ఫోటోల కోసం, ఈ పనిని ఇమేజ్ మానిప్యులేషన్ అంటారు). ఉదాహరణకు YaC 2019 సమావేశం నుండి మా పని ఫలితం.
శాస్త్రీయ సమావేశాలు చాలా ఉన్నాయి, కానీ అగ్రస్థానంలో ఉన్నవి, A* సమావేశాలు అని పిలవబడేవి, ఇక్కడ అత్యంత ఆసక్తికరమైన మరియు ముఖ్యమైన సాంకేతికతలపై కథనాలు సాధారణంగా ప్రచురించబడతాయి. A* సమావేశాల యొక్క ఖచ్చితమైన జాబితా లేదు, ఇక్కడ సుమారుగా మరియు అసంపూర్ణమైన జాబితా ఉంది: NeurIPS (గతంలో NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. చివరి ముగ్గురు సివి టాపిక్‌లో ప్రత్యేకత కలిగి ఉన్నారు.

చూపులో ICCV: పోస్టర్‌లు, ట్యుటోరియల్‌లు, వర్క్‌షాప్‌లు, స్టాండ్‌లు

కాన్ఫరెన్స్ 1075 పత్రాలను అందుకుంది, 7500 మంది పాల్గొనేవారు రష్యా నుండి వచ్చారు, Yandex, Skoltech, Samsung AI సెంటర్ మాస్కో మరియు సమారా విశ్వవిద్యాలయం నుండి వచ్చిన కథనాలు ఉన్నాయి. ఈ సంవత్సరం, చాలా మంది ప్రముఖ పరిశోధకులు ICCVని సందర్శించలేదు, కానీ, ఉదాహరణకు, అలెక్సీ (అలియోషా) ఎఫ్రోస్, అతను ఎల్లప్పుడూ చాలా మందిని ఆకర్షిస్తాడు:

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

గణాంకాలు కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

అటువంటి అన్ని సమావేశాలలో, కథనాలు పోస్టర్ల రూపంలో ప్రదర్శించబడతాయి (మరింత సమాచారం ఫార్మాట్ గురించి), మరియు ఉత్తమమైనవి కూడా చిన్న నివేదికల రూపంలో ప్రదర్శించబడతాయి.

ఇక్కడ రష్యా నుండి కొన్ని రచనలు ఉన్నాయి కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

ట్యుటోరియల్స్‌తో మీరు ఒక నిర్దిష్ట సబ్జెక్ట్ ప్రాంతంలోకి ప్రవేశించవచ్చు, ఇది విశ్వవిద్యాలయంలో ఉపన్యాసాన్ని గుర్తు చేస్తుంది. ఇది సాధారణంగా నిర్దిష్ట రచనల గురించి మాట్లాడకుండా ఒక వ్యక్తిచే చదవబడుతుంది. కూల్ ట్యుటోరియల్ యొక్క ఉదాహరణ (మైఖేల్ బ్రౌన్, అండర్స్టాండింగ్ కలర్ మరియు కంప్యూటర్ విజన్ కోసం ఇన్-కెమెరా ఇమేజ్ ప్రాసెసింగ్ పైప్‌లైన్):

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

వర్క్‌షాప్‌లలో, దీనికి విరుద్ధంగా, వారు కథనాల గురించి మాట్లాడుతారు. సాధారణంగా ఇవి కొన్ని ఇరుకైన అంశంలోని రచనలు, విద్యార్థుల యొక్క అన్ని తాజా పని గురించి ప్రయోగశాల అధిపతుల నుండి కథనాలు లేదా ప్రధాన సమావేశానికి అంగీకరించని కథనాలు.

స్పాన్సర్ చేసే కంపెనీలు స్టాండ్‌లతో ICCVకి వస్తాయి. ఈ సంవత్సరం, Google, Facebook, Amazon మరియు అనేక ఇతర అంతర్జాతీయ కంపెనీలు వచ్చాయి, అలాగే పెద్ద సంఖ్యలో స్టార్టప్‌లు - కొరియన్ మరియు చైనీస్. ముఖ్యంగా డేటా ట్యాగింగ్‌లో ప్రత్యేకత కలిగిన అనేక స్టార్టప్‌లు ఉన్నాయి. స్టాండ్‌ల వద్ద ప్రదర్శనలు ఉన్నాయి, మీరు వ్యాపార వస్తువులను తీసుకొని ప్రశ్నలు అడగవచ్చు. వేట ప్రయోజనాల కోసం, స్పాన్సర్ చేసే కంపెనీలు పార్టీలను కలిగి ఉంటాయి. మీకు ఆసక్తి ఉందని మరియు మీరు ఇంటర్వ్యూలలో ఉత్తీర్ణత సాధించగలరని రిక్రూటర్‌లను మీరు ఒప్పిస్తే మీరు వాటిని చేరుకోవచ్చు. మీరు ఒక కథనాన్ని ప్రచురించినట్లయితే (లేదా, అదనంగా, దానిని సమర్పించినట్లయితే), ప్రారంభించి లేదా PhD పూర్తి చేస్తున్నట్లయితే, ఇది ఒక ప్లస్, కానీ కొన్నిసార్లు మీరు కంపెనీ ఇంజనీర్లకు ఆసక్తికరమైన ప్రశ్నలను అడగడం ద్వారా స్టాండ్ వద్ద చర్చలు జరపవచ్చు.

పోకడలు

సమావేశం మొత్తం CV ఫీల్డ్‌ను పరిశీలించడానికి మిమ్మల్ని అనుమతిస్తుంది. నిర్దిష్ట అంశంపై పోస్టర్ల సంఖ్యను బట్టి, అంశం ఎంత హాట్‌గా ఉందో మీరు అంచనా వేయవచ్చు. కీలక పదాల ఆధారంగా కొన్ని ముగింపులు తమను తాము సూచిస్తాయి:

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

జీరో-షాట్, వన్-షాట్, కొన్ని-షాట్, స్వీయ-పర్యవేక్షించడం మరియు సెమీ-పర్యవేక్షించడం: దీర్ఘకాలంగా అధ్యయనం చేయబడిన పనులకు కొత్త విధానాలు

ప్రజలు డేటాను మరింత సమర్థవంతంగా ఉపయోగించడం నేర్చుకుంటున్నారు. ఉదాహరణకు, లో FUNIT శిక్షణ సెట్‌లో లేని జంతువుల ముఖ కవళికలను రూపొందించడం సాధ్యమవుతుంది (అనువర్తనంలో, అనేక సూచన చిత్రాలను అందించడం ద్వారా). డీప్ ఇమేజ్ ప్రియర్ యొక్క ఆలోచనలు అభివృద్ధి చేయబడ్డాయి మరియు ఇప్పుడు GAN నెట్‌వర్క్‌లు ఒకే చిత్రంపై శిక్షణ పొందవచ్చు - మేము దీని గురించి క్రింద మాట్లాడుతాము ముఖ్యాంశాలలో. మీరు ముందస్తు శిక్షణ కోసం స్వీయ-పర్యవేక్షణను ఉపయోగించవచ్చు (చిత్రం యొక్క భ్రమణ కోణాన్ని అంచనా వేయడం వంటి సమలేఖన డేటాను సంశ్లేషణ చేయగల సమస్యను పరిష్కరించడం) లేదా లేబుల్ చేయబడిన మరియు లేబుల్ చేయని డేటా నుండి ఏకకాలంలో నేర్చుకోవచ్చు. ఈ కోణంలో, వ్యాసం సృష్టికి కిరీటంగా పరిగణించబడుతుంది S4L: సెల్ఫ్-పర్వైజ్డ్ సెమీ-పర్యవేజ్డ్ లెర్నింగ్. మరియు ImageNetలో ముందస్తు శిక్షణ ఇక్కడ ఉంది ఎల్లప్పుడూ కాదు సహాయపడుతుంది.

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

3D మరియు 360°

ఫోటోల కోసం ఎక్కువగా పరిష్కరించబడిన సమస్యలకు (విభజన, గుర్తింపు) 3D మోడల్‌లు మరియు పనోరమిక్ వీడియోల కోసం అదనపు పరిశోధన అవసరం. RGB మరియు RGB-D లను 3Dకి మార్చడం గురించి మనం చాలా కథనాలను చూశాము. మానవ భంగిమ అంచనా వంటి కొన్ని సమస్యలను 3D మోడల్‌లకు తరలించడం ద్వారా మరింత సహజంగా పరిష్కరించవచ్చు. మెష్, పాయింట్ క్లౌడ్, వోక్సెల్‌లు లేదా SDF రూపంలో - XNUMXD మోడల్‌లను సరిగ్గా ఎలా సూచించాలనే దానిపై ఇంకా ఏకాభిప్రాయం లేదు. ఇక్కడ మరొక ఎంపిక ఉంది:

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

పనోరమాలలో, గోళంపై మెలికలు చురుకుగా అభివృద్ధి చెందుతున్నాయి (చూడండి. ఐకోసాహెడ్రాన్ స్పియర్‌లపై ఓరియంటేషన్-అవేర్ సెమాంటిక్ సెగ్మెంటేషన్) మరియు ఫ్రేమ్‌లోని కీలక వస్తువుల కోసం శోధించండి.

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

భంగిమ గుర్తింపు మరియు మానవ కదలిక అంచనా

2Dలో భంగిమను గుర్తించడంలో ఇప్పటికే పురోగతులు ఉన్నాయి - ఇప్పుడు ఫోకస్ బహుళ కెమెరాలతో మరియు 3Dలో పని చేయడం వైపు మళ్లింది. ఉదాహరణకు, మానవ శరీరం గుండా వెళుతున్నప్పుడు Wi-Fi సిగ్నల్‌లో మార్పులను ట్రాక్ చేయడం ద్వారా గోడ ద్వారా అస్థిపంజరాన్ని గుర్తించడం కూడా సాధ్యమే.

హ్యాండ్ కీపాయింట్ డిటెక్షన్ రంగంలో చాలా పని జరిగింది. ఇద్దరు వ్యక్తుల మధ్య సంభాషణల వీడియోల ఆధారంగా కొత్త డేటాసెట్‌లు కనిపించాయి - ఇప్పుడు మీరు సంభాషణ యొక్క ఆడియో లేదా వచనం నుండి చేతి సంజ్ఞలను అంచనా వేయవచ్చు! ఐ ట్రాకింగ్ టాస్క్‌లలో (గాజ్ ఎస్టిమేషన్) అదే పురోగతి సాధించబడింది.

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

మానవ కదలికల అంచనాకు సంబంధించిన పెద్ద సమూహాన్ని కూడా గుర్తించవచ్చు (ఉదాహరణకు, స్పాటియో-టెంపోరల్ పెయింటింగ్ ద్వారా హ్యూమన్ మోషన్ ప్రిడిక్షన్ లేదా స్ట్రక్చర్డ్ ప్రిడిక్షన్ 3D హ్యూమన్ మోషన్ మోడలింగ్‌కు సహాయపడుతుంది) పని ముఖ్యమైనది మరియు రచయితలతో సంభాషణల ఆధారంగా, స్వయంప్రతిపత్త డ్రైవింగ్‌లో పాదచారుల ప్రవర్తనను విశ్లేషించడానికి చాలా తరచుగా ఉపయోగించబడుతుంది.

ఫోటోలు మరియు వీడియోలలో వ్యక్తులతో మానిప్యులేషన్‌లు, వర్చువల్ ఫిట్టింగ్ రూమ్‌లు

వివరించదగిన పారామితుల ప్రకారం ముఖ చిత్రాలను మార్చడం ప్రధాన ధోరణి. ఆలోచనలు: ఒక చిత్రం ఆధారంగా డీప్‌ఫేక్, ఫేషియల్ రెండరింగ్ ఆధారంగా వ్యక్తీకరణను మార్చడం (PuppetGAN), ఫీడ్‌ఫార్వర్డ్-మార్పు పారామితులు (ఉదాహరణకు, వయస్సు) శైలి బదిలీలు అంశం యొక్క శీర్షిక నుండి పని యొక్క అనువర్తనానికి మారాయి. వర్చువల్ ఫిట్టింగ్ గదులు వేరే కథ, అవి దాదాపు ఎల్లప్పుడూ పేలవంగా పనిచేస్తాయి; ఇక్కడ ఒక ఉదాహరణ ఉంది ప్రదర్శనలు.

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

స్కెచ్‌లు/గ్రాఫ్‌ల నుండి జనరేషన్

"మునుపటి అనుభవం ఆధారంగా గ్రిడ్ ఏదైనా ఉత్పత్తి చేయనివ్వండి" అనే ఆలోచన యొక్క అభివృద్ధి మరొకటి మారింది: "మనకు ఆసక్తి ఉన్న ఎంపికను గ్రిడ్‌ని చూపుదాం."

SC-FEGAN గైడెడ్ ఇన్‌పెయింట్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది: వినియోగదారు చిత్రం యొక్క చెరిపివేయబడిన ప్రదేశంలో ముఖం యొక్క భాగాన్ని పెయింటింగ్ చేయడం పూర్తి చేయవచ్చు మరియు పూర్తయినదానిపై ఆధారపడి పునరుద్ధరించబడిన చిత్రాన్ని పొందవచ్చు.

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

ICCV కోసం 25 Adobe కథనాలలో ఒకటి రెండు GANలను మిళితం చేస్తుంది: ఒకటి వినియోగదారు కోసం స్కెచ్‌ని పూర్తి చేస్తుంది, మరొకటి స్కెచ్ నుండి ఫోటోరియలిస్టిక్ చిత్రాన్ని రూపొందిస్తుంది (ప్రాజెక్ట్ పేజీ).

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

ఇంతకుముందు, ఇమేజ్ జనరేషన్‌లో గ్రాఫ్‌లు అవసరం లేదు, కానీ ఇప్పుడు వాటిని దృశ్యం గురించి జ్ఞానం యొక్క కంటైనర్‌గా మార్చారు. ఐసిసివి ఫలితాల ఆధారంగా బెస్ట్ పేపర్ హానరబుల్ మెన్షన్స్ అవార్డు కూడా ఆర్టికల్ గెలుచుకుంది ఇంటరాక్టివ్ సీన్ జనరేషన్‌లో ఆబ్జెక్ట్ గుణాలు మరియు సంబంధాలను పేర్కొనడం. సాధారణంగా, మీరు వాటిని వివిధ మార్గాల్లో ఉపయోగించవచ్చు: చిత్రాల నుండి గ్రాఫ్‌లను రూపొందించండి లేదా గ్రాఫ్‌ల నుండి చిత్రాలు మరియు వచనాలను రూపొందించండి.

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

ప్రజలు మరియు కార్లను తిరిగి గుర్తించడం, గుంపు పరిమాణాన్ని లెక్కించడం (!)

అనేక కథనాలు వ్యక్తులను ట్రాక్ చేయడానికి మరియు వ్యక్తులను మరియు యంత్రాలను తిరిగి గుర్తించడానికి అంకితం చేయబడ్డాయి. అయితే చైనా నుండి వచ్చిన క్రౌడ్ కౌంటింగ్‌పై కథనాల సమూహం మాకు ఆశ్చర్యం కలిగించింది.

పోస్టర్లు కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు
కానీ ఫేస్‌బుక్, దీనికి విరుద్ధంగా, ఫోటోను అనామకం చేస్తుంది. మరియు ఇది దీన్ని ఆసక్తికరమైన రీతిలో చేస్తుంది: ఇది ప్రత్యేకమైన వివరాలు లేకుండా ముఖాన్ని రూపొందించడానికి న్యూరల్ నెట్‌వర్క్‌కు శిక్షణ ఇస్తుంది - సారూప్యమైనది, కానీ ముఖ గుర్తింపు వ్యవస్థల ద్వారా సరిగ్గా గుర్తించబడేంత సారూప్యమైనది కాదు.

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

విరోధి దాడుల నుండి రక్షణ

వాస్తవ ప్రపంచంలో (సెల్ఫ్ డ్రైవింగ్ కార్లలో, ముఖ గుర్తింపులో) కంప్యూటర్ విజన్ అప్లికేషన్‌ల అభివృద్ధితో, అటువంటి వ్యవస్థల విశ్వసనీయత ప్రశ్న ఎక్కువగా తలెత్తుతుంది. CVని పూర్తిగా ఉపయోగించడానికి, సిస్టమ్ విరోధి దాడులకు నిరోధకతను కలిగి ఉందని మీరు నిర్ధారించుకోవాలి - అందుకే దాడుల గురించి కంటే వారి నుండి రక్షణ గురించి తక్కువ కథనాలు లేవు. నెట్‌వర్క్ ప్రిడిక్షన్‌లను (సెలెన్స్ మ్యాప్) వివరించడం మరియు ఫలితంపై విశ్వాసాన్ని కొలిచేందుకు చాలా పని జరిగింది.

కంబైన్డ్ టాస్క్‌లు

ఒక లక్ష్యంతో చాలా పనులలో, నాణ్యతను మెరుగుపరిచే అవకాశాలు ఆచరణాత్మకంగా అయిపోయాయి, నాణ్యతను మరింత పెంచడానికి కొత్త దిశలలో ఒకటి ఒకే సమయంలో అనేక సమస్యలను పరిష్కరించడానికి న్యూరల్ నెట్‌వర్క్‌లను బోధించడం. ఉదాహరణలు:
- యాక్షన్ ప్రిడిక్షన్ + ఆప్టికల్ ఫ్లో ప్రిడిక్షన్,
— వీడియో ప్రదర్శన + భాష ప్రదర్శన (వీడియోబర్ట్),
- సూపర్ రిజల్యూషన్ + HDR.

విభజన, భంగిమ నిర్ధారణ మరియు జంతువులను తిరిగి గుర్తించడంపై కథనాలు కూడా ఉన్నాయి!

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

ముఖ్యాంశాలు

దాదాపు అన్ని కథనాలు ముందుగానే తెలిసినవి, టెక్స్ట్ arXiv.orgలో అందుబాటులో ఉంది. అందువల్ల, ఎవ్రీబడీ డ్యాన్స్ నౌ, FUNIT, Image2StyleGAN వంటి రచనల ప్రదర్శన చాలా వింతగా అనిపిస్తుంది - ఇవి చాలా ఉపయోగకరమైన రచనలు, కానీ కొత్తవి కావు. శాస్త్రీయ ప్రచురణల యొక్క శాస్త్రీయ ప్రక్రియ ఇక్కడ విచ్ఛిన్నమవుతున్నట్లు కనిపిస్తోంది - సైన్స్ చాలా త్వరగా కదులుతోంది.

ఉత్తమ రచనలను గుర్తించడం చాలా కష్టం - వాటిలో చాలా ఉన్నాయి, విషయాలు భిన్నంగా ఉంటాయి. అనేక కథనాలు వచ్చాయి అవార్డులు మరియు ప్రస్తావనలు.

ఇది మా అంశం కాబట్టి, ఇమేజ్ మానిప్యులేషన్ కోణం నుండి ఆసక్తికరమైన పనులను హైలైట్ చేయాలనుకుంటున్నాము. అవి మాకు చాలా తాజాగా మరియు ఆసక్తికరంగా మారాయి (మేము ఆబ్జెక్టివ్‌గా నటించము).

SinGAN (ఉత్తమ పేపర్ అవార్డు) మరియు InGAN

సింగన్: ప్రాజెక్ట్ పేజీ, arXiv, వద్ద.
ఇంగన్: ప్రాజెక్ట్ పేజీ, arXiv, వద్ద.

డిమిత్రి ఉల్యనోవ్, ఆండ్రియా వెడాల్డి మరియు విక్టర్ లెంపిట్స్కీ నుండి డీప్ ఇమేజ్ ప్రియర్ ఐడియా అభివృద్ధి. డేటాసెట్‌లో GANకి శిక్షణ ఇవ్వడానికి బదులుగా, నెట్‌వర్క్‌లు దానిలోని గణాంకాలను గుర్తుంచుకోవడానికి అదే చిత్రం యొక్క శకలాలు నుండి నేర్చుకుంటాయి. శిక్షణ పొందిన నెట్‌వర్క్ ఫోటోలను (SinGAN) సవరించడానికి మరియు యానిమేట్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది లేదా అసలు చిత్రం యొక్క అల్లికల నుండి ఏదైనా పరిమాణంలో కొత్త చిత్రాలను రూపొందించడానికి, స్థానిక నిర్మాణాన్ని (InGAN) భద్రపరుస్తుంది.

సింగన్:

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

ఇంగన్:

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

GAN ఏమి ఉత్పత్తి చేయలేదో చూడటం

ప్రాజెక్ట్ పేజీ.

చిత్రాలను రూపొందించే న్యూరల్ నెట్‌వర్క్‌లు తరచుగా యాదృచ్ఛిక శబ్దం యొక్క వెక్టర్‌ను ఇన్‌పుట్‌గా తీసుకుంటాయి. శిక్షణ పొందిన నెట్‌వర్క్‌లో, అనేక ఇన్‌పుట్ వెక్టర్‌లు ఖాళీని ఏర్పరుస్తాయి, చిన్న కదలికలు చిత్రంలో చిన్న మార్పులకు దారితీస్తాయి. ఆప్టిమైజేషన్ ఉపయోగించి, మీరు విలోమ సమస్యను పరిష్కరించవచ్చు: వాస్తవ ప్రపంచం నుండి చిత్రం కోసం తగిన ఇన్‌పుట్ వెక్టర్‌ను కనుగొనండి. న్యూరల్ నెట్‌వర్క్‌లో పూర్తిగా సరిపోలే చిత్రాన్ని కనుగొనడం దాదాపు ఎప్పటికీ సాధ్యం కాదని రచయిత చూపారు. చిత్రంలో కొన్ని వస్తువులు ఉత్పత్తి చేయబడవు (స్పష్టంగా ఈ వస్తువుల యొక్క పెద్ద వైవిధ్యం కారణంగా).

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

GAN చిత్రాల మొత్తం స్థలాన్ని కవర్ చేయదని రచయిత ఊహిస్తారు, కానీ జున్ను వంటి రంధ్రాలతో నింపబడిన కొన్ని ఉపసమితులు మాత్రమే. మేము దానిలో వాస్తవ ప్రపంచం నుండి ఫోటోలను కనుగొనడానికి ప్రయత్నించినప్పుడు, మేము ఎల్లప్పుడూ విఫలమవుతాము, ఎందుకంటే GAN ఇప్పటికీ పూర్తిగా నిజమైన ఫోటోలను రూపొందించదు. నెట్‌వర్క్ యొక్క బరువులను మార్చడం ద్వారా మాత్రమే నిజమైన మరియు రూపొందించబడిన చిత్రాల మధ్య వ్యత్యాసాలను అధిగమించవచ్చు, అంటే, నిర్దిష్ట ఫోటో కోసం దాన్ని మళ్లీ శిక్షణ ఇవ్వడం ద్వారా.

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

నిర్దిష్ట ఫోటో కోసం నెట్‌వర్క్ అదనంగా శిక్షణ పొందినప్పుడు, మీరు ఈ చిత్రంతో వివిధ అవకతవకలను ప్రయత్నించవచ్చు. దిగువ ఉదాహరణలో, ఫోటోకు విండో జోడించబడింది మరియు కిచెన్ యూనిట్‌పై నెట్‌వర్క్ అదనంగా ప్రతిబింబాలను రూపొందించింది. దీని అర్థం నెట్‌వర్క్, ఫోటోగ్రఫీ కోసం అదనపు శిక్షణ తర్వాత కూడా, దృశ్యంలో వస్తువుల మధ్య కనెక్షన్‌ని చూసే సామర్థ్యాన్ని కోల్పోలేదు.

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

GANalize: అభిజ్ఞా చిత్ర లక్షణాల దృశ్య నిర్వచనాల వైపు

ప్రాజెక్ట్ పేజీ, arXiv.

ఈ పని నుండి విధానాన్ని ఉపయోగించి, మీరు న్యూరల్ నెట్‌వర్క్ నేర్చుకున్న వాటిని దృశ్యమానం చేయవచ్చు మరియు విశ్లేషించవచ్చు. నెట్‌వర్క్ పేర్కొన్న అంచనాలను రూపొందించే చిత్రాలను రూపొందించడానికి GANకి శిక్షణ ఇవ్వాలని రచయితలు ప్రతిపాదించారు. ఫోటో జ్ఞాపకశక్తిని అంచనా వేసే మెమ్‌నెట్‌తో సహా కథనం అనేక నెట్‌వర్క్‌లను ఉదాహరణలుగా ఉపయోగించింది. మంచి జ్ఞాపకశక్తి కోసం, ఫోటోలోని వస్తువు ఇలా ఉండాలి:

  • కేంద్రానికి దగ్గరగా ఉండాలి
  • మరింత గుండ్రంగా లేదా చతురస్రాకారంలో మరియు సరళమైన నిర్మాణాన్ని కలిగి ఉంటుంది,
  • ఏకరీతి నేపథ్యంలో ఉండండి,
  • వ్యక్తీకరణ కళ్ళు కలిగి ఉంటాయి (కనీసం కుక్క ఫోటోల కోసం),
  • ప్రకాశవంతంగా, మరింత సంతృప్తంగా, కొన్ని సందర్భాల్లో, ఎర్రగా ఉంటుంది.

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

లిక్విడ్ వార్పింగ్ GAN: హ్యూమన్ మోషన్ ఇమిటేషన్, స్వరూపం బదిలీ మరియు నవల వీక్షణ సంశ్లేషణ కోసం ఏకీకృత ఫ్రేమ్‌వర్క్

ప్రాజెక్ట్ పేజీ, arXiv, వద్ద.

వ్యక్తుల ఫోటోలను ఒక సమయంలో ఒక ఫోటోను రూపొందించడానికి పైప్‌లైన్. రచయితలు ఒక వ్యక్తి యొక్క కదలికను మరొకరికి బదిలీ చేయడం, వ్యక్తుల మధ్య బట్టలు బదిలీ చేయడం మరియు ఒక వ్యక్తి యొక్క కొత్త కోణాలను రూపొందించడం వంటి విజయవంతమైన ఉదాహరణలను చూపుతారు - అన్నీ ఒక ఫోటో నుండి. మునుపటి పనిలా కాకుండా, ఇక్కడ మేము 2D (భంగిమ)లోని కీలక పాయింట్‌లను కాకుండా, పరిస్థితులను సృష్టించడానికి శరీరం యొక్క 3D మెష్ (భంగిమ + ఆకారం) ఉపయోగిస్తాము. అసలు చిత్రం నుండి జనరేట్ చేసిన దానికి (లిక్విడ్ వార్పింగ్ బ్లాక్) సమాచారాన్ని ఎలా బదిలీ చేయాలో కూడా రచయితలు కనుగొన్నారు. ఫలితాలు మంచిగా కనిపిస్తాయి, కానీ ఫలిత చిత్రం యొక్క రిజల్యూషన్ 256x256 మాత్రమే. పోలిక కోసం, ఒక సంవత్సరం క్రితం కనిపించిన vid2vid, 2048x1024 రిజల్యూషన్‌లో రూపొందించగలదు, అయితే దీనికి డేటాసెట్‌గా 10 నిమిషాల వీడియో రికార్డింగ్ అవసరం.

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

FSGAN: సబ్జెక్ట్ అజ్ఞేయ ముఖం మార్పిడి మరియు పునర్నిర్మాణం

ప్రాజెక్ట్ పేజీ, arXiv.

మొదట అసాధారణమైనది ఏమీ లేదని అనిపిస్తుంది: ఎక్కువ లేదా తక్కువ సాధారణ నాణ్యత కలిగిన డీప్‌ఫేక్. కానీ పని యొక్క ప్రధాన సాధన ఒక చిత్రం నుండి ముఖాల ప్రత్యామ్నాయం. మునుపటి రచనల వలె కాకుండా, నిర్దిష్ట వ్యక్తి యొక్క అనేక ఛాయాచిత్రాలపై శిక్షణ అవసరం. పైప్‌లైన్ గజిబిజిగా మారింది (పునరాకృతి మరియు విభజన, వీక్షణ ఇంటర్‌పోలేషన్, ఇన్‌పెయింటింగ్, బ్లెండింగ్) మరియు చాలా సాంకేతిక హక్స్‌తో, కానీ ఫలితం విలువైనది.

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

ఇమేజ్ రీసింథసిస్ ద్వారా ఊహించనిది గుర్తించడం

arXiv.

ఏ సెమాంటిక్ సెగ్మెంటేషన్ క్లాస్‌లోకి రాని ఒక వస్తువు తన ముందు హఠాత్తుగా కనిపించిందని డ్రోన్ ఎలా అర్థం చేసుకోగలదు? అనేక పద్ధతులు ఉన్నాయి, కానీ రచయితలు దాని పూర్వీకుల కంటే మెరుగ్గా పనిచేసే కొత్త, సహజమైన అల్గోరిథంను ప్రతిపాదించారు. ఇన్‌పుట్ రోడ్ ఇమేజ్ నుండి సెమాంటిక్ సెగ్మెంటేషన్ అంచనా వేయబడింది. ఇది GAN (pix2pixHD)కి ఇన్‌పుట్‌గా అందించబడుతుంది, ఇది సెమాంటిక్ మ్యాప్ నుండి మాత్రమే అసలు చిత్రాన్ని పునరుద్ధరించడానికి ప్రయత్నిస్తుంది. ఏ సెగ్మెంట్లలోకి రాని క్రమరాహిత్యాలు అవుట్‌పుట్ మరియు రూపొందించిన ఇమేజ్‌లో గణనీయంగా తేడా ఉంటుంది. మూడు చిత్రాలు (ఒరిజినల్, సెగ్మెంటేషన్ మరియు పునర్నిర్మించినవి) క్రమరాహిత్యాలను అంచనా వేసే మరొక నెట్‌వర్క్‌లోకి అందించబడతాయి. దీని కోసం డేటాసెట్ బాగా తెలిసిన సిటీస్కేప్స్ డేటాసెట్ నుండి రూపొందించబడింది, సెమాంటిక్ సెగ్మెంటేషన్‌పై తరగతులను యాదృచ్ఛికంగా మారుస్తుంది. ఆసక్తికరంగా, ఈ నేపధ్యంలో, ఒక కుక్క రోడ్డు మధ్యలో నిలబడి ఉంది, కానీ సరిగ్గా విభజించబడింది (అంటే దాని కోసం ఒక తరగతి ఉంది), సిస్టమ్ దానిని గుర్తించగలిగినందున, ఇది క్రమరాహిత్యం కాదు.

కంప్యూటర్ దృష్టిలో పోకడలు. ICV 2019 ముఖ్యాంశాలు

తీర్మానం

సమావేశానికి ముందు, మీ శాస్త్రీయ ఆసక్తులు ఏమిటో, మీరు ఏ ప్రదర్శనలకు హాజరు కావాలనుకుంటున్నారో మరియు ఎవరితో మాట్లాడాలో తెలుసుకోవడం ముఖ్యం. అప్పుడు ప్రతిదీ మరింత ఉత్పాదకంగా ఉంటుంది.

ICCV అనేది మొదటి మరియు అన్నిటికంటే, నెట్‌వర్కింగ్. అగ్రశ్రేణి సంస్థలు మరియు అత్యుత్తమ శాస్త్రీయ విభాగాలు ఉన్నాయని మీరు అర్థం చేసుకున్నారు, మీరు దీన్ని అర్థం చేసుకోవడం, వ్యక్తులను తెలుసుకోవడం ప్రారంభిస్తారు. మరియు మీరు arXivలో కథనాలను చదవవచ్చు - మరియు జ్ఞానాన్ని పొందడానికి మీరు ఎక్కడికీ వెళ్లనవసరం లేదని ఇది చాలా బాగుంది.

అదనంగా, సమావేశంలో మీరు మీకు దగ్గరగా లేని అంశాలలో లోతుగా డైవ్ చేయవచ్చు మరియు ట్రెండ్‌లను చూడవచ్చు. బాగా, చదవడానికి వ్యాసాల జాబితాను వ్రాయండి. మీరు విద్యార్థి అయితే, మీరు పరిశ్రమకు చెందిన వారైతే, కొత్త యజమానితో మరియు కంపెనీ అయితే, మిమ్మల్ని మీరు చూపించుకోవడానికి సంభావ్య ఉపాధ్యాయుడిని కలవడానికి ఇది ఒక అవకాశం.

దీనికి సభ్యత్వాన్ని పొందండి @loss_function_porn! ఇది వ్యక్తిగత ప్రాజెక్ట్: మేము కలిసి దీనిని నడిపిస్తున్నాము కార్ఫ్లై. కాన్ఫరెన్స్‌లో మాకు నచ్చిన అన్ని రచనలను ఇక్కడ పోస్ట్ చేసాము: @loss_function_live.

మూలం: www.habr.com

DDoS రక్షణ, VPS VDS సర్వర్‌లతో సైట్‌ల కోసం నమ్మకమైన హోస్టింగ్‌ను కొనుగోలు చేయండి 🔥 DDoS రక్షణతో కూడిన నమ్మకమైన వెబ్‌సైట్ హోస్టింగ్, VPS VDS సర్వర్‌లను కొనండి | ProHoster