Tha lìonraidhean neural ann an lèirsinn coimpiutair a 'leasachadh gu gnìomhach, tha mòran dhuilgheadasan fhathast fada bho bhith air am fuasgladh. Gus a bhith ann an gluasad san raon agad, dìreach lean luchd-buaidh air Twitter agus leugh artaigilean buntainneach air arXiv.org. Ach bha cothrom againn a dhol gu Co-labhairt Eadar-nàiseanta air Sealladh Coimpiutaireachd (ICCV) 2019. Am-bliadhna thathar ga chumail ann an Korea a Deas. A-nis tha sinn airson a roinn le luchd-leughaidh Habr na chunnaic agus a dh’ ionnsaich sinn.
Bha tòrr againn an sin bho Yandex: thàinig luchd-leasachaidh chàraichean fèin-dràibhidh, luchd-rannsachaidh, agus an fheadhainn a tha a 'dèiligeadh ri gnìomhan CV ann an seirbheisean. Ach a-nis tha sinn airson sealladh beagan cuspaireil a thoirt don sgioba againn - an Machine Intelligence Laboratory (Yandex MILAB). Is dòcha gun do choimhead na balaich eile air a’ cho-labhairt bhon taobh aca fhèin.
Dè bhios an obair-lann a’ dèanamh?Bidh sinn a’ dèanamh phròiseactan deuchainneach co-cheangailte ri gineadh ìomhaighean is ceòl airson adhbharan dibhearsain. Tha ùidh shònraichte againn ann an lìonraidhean neural a leigeas leat susbaint atharrachadh bhon neach-cleachdaidh (airson dealbhan, canar làimhseachadh ìomhaighean ris a’ ghnìomh seo).
Tha tòrr cho-labhairtean saidheansail ann, ach tha an fheadhainn as àirde a’ seasamh a-mach, na co-labhairtean A * ris an canar, far am bi artaigilean air na teicneòlasan as inntinniche agus as cudromaiche air am foillseachadh mar as trice. Chan eil dearbh liosta de cho-labhairtean A* ann, seo liosta tuairmseach agus neo-choileanta: NeurIPS (NIPS roimhe seo), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Tha na trì mu dheireadh a’ speisealachadh ann an cuspair CV.
Sùil air ICCV: postairean, clasaichean, bùthan-obrach, ionadan
Fhuair a’ cho-labhairt pàipearan 1075, bha com-pàirtichean 7500 ann. Thàinig 103 neach às an Ruis, bha artaigilean ann bho luchd-obrach Yandex, Skoltech, Samsung AI Center Moscow agus Oilthigh Samara. Am-bliadhna, cha do thadhail mòran de phrìomh luchd-rannsachaidh air ICCV, ach, mar eisimpleir, Alexey (Alyosha) Efros, a bhios an-còmhnaidh a’ tàladh mòran dhaoine:
Статистика
Aig a h-uile co-labhairt mar sin, tha artaigilean air an taisbeanadh ann an cruth postairean (
Seo cuid de na h-obraichean bhon Ruis
Le clasaichean teagaisg faodaidh tu dàibheadh a-steach do raon cuspair sònraichte; tha e mar chuimhneachan air òraid aig oilthigh. Tha e air a leughadh le aon neach, mar is trice gun a bhi bruidhinn air obraichean sonraichte. Eisimpleir de oideachadh fionnar (
Aig bùthan-obrach, air an làimh eile, bidh iad a 'bruidhinn mu dheidhinn artaigilean. Mar as trice is e obraichean a tha seo ann an cuspair cumhang, sgeulachdan bho chinn obair-lann mun obair as ùire aig oileanaich, no artaigilean nach deach gabhail ris a’ phrìomh cho-labhairt.
Bidh companaidhean urrasachd a’ tighinn gu ICCV le standan. Am-bliadhna, thàinig Google, Facebook, Amazon agus mòran chompanaidhean eadar-nàiseanta eile, a bharrachd air àireamh mhòr de chompanaidhean tòiseachaidh - Coirèanais agus Sìneach. Bha gu sònraichte mòran de ghnìomhachasan tòiseachaidh ann a bha gu sònraichte a’ tagadh dàta. Tha taisbeanaidhean aig na standan, faodaidh tu marsanta a ghabhail agus ceistean fhaighneachd. Airson adhbharan seilge, tha pàrtaidhean aig companaidhean urrasachd. Faodaidh tu faighinn a-steach annta ma bheir thu dearbhadh do luchd-fastaidh gu bheil ùidh agad agus gum faod thu agallamhan a dhèanamh. Ma tha thu air artaigil fhoillseachadh (no, a bharrachd air sin, air a thaisbeanadh), air tòiseachadh no a’ crìochnachadh PhD, tha seo na bhuannachd, ach uaireannan faodaidh tu barganachadh aig an ionad le bhith a’ faighneachd cheistean inntinneach do innleadairean a’ chompanaidh.
Trends
Leigidh a’ cho-labhairt leat sùil a thoirt air an raon CV gu lèir. Leis an àireamh de phostairean air cuspair sònraichte, faodaidh tu measadh a dhèanamh air cho teth sa tha an cuspair. Tha cuid de cho-dhùnaidhean gam moladh fhèin stèidhichte air na prìomh fhaclan:
Zero-shot, aon-dhealbh, glè bheag de dhealbhan, fèin-stiùirichte agus leth-stiùirichte: dòighean ùra air gnìomhan a chaidh a sgrùdadh o chionn fhada
Tha daoine ag ionnsachadh dàta a chleachdadh ann an dòigh nas èifeachdaiche. Mar eisimpleir, ann an
3D agus 360 °
Feumaidh duilgheadasan a chaidh fhuasgladh sa mhòr-chuid airson dealbhan (sgaradh, lorg) sgrùdadh a bharrachd airson modalan 3D agus bhideothan farsaing. Tha sinn air mòran artaigilean fhaicinn mu bhith ag atharrachadh RGB agus RGB-D gu 3D. Faodar cuid de dhuilgheadasan, leithid tuairmse suidheachadh daonna, fhuasgladh nas nàdarra le bhith a’ gluasad gu modalan 3D. Ach chan eil co-aontachd ann fhathast air mar a bu chòir modalan XNUMXD a riochdachadh gu dìreach - ann an cruth mogal, sgòth puing, voxels no SDF. Seo roghainn eile:
Ann am panoramas, tha convolutions air an raon a’ leasachadh gu gnìomhach (faic.
Lorg suidheachadh agus ro-innse gluasad daonna
Tha adhartas air a bhith ann mar-thà ann an lorg suidheachadh ann an 2D - a-nis tha am fòcas air gluasad gu bhith ag obair le ioma-chamarathan agus ann an 3D. Mar eisimpleir, faodaidh tu cuideachd cnàimhneach a lorg tro bhalla le bhith a’ cumail sùil air atharrachaidhean anns a’ chomharra Wi-Fi fhad ‘s a thèid e tro chorp an duine.
Chaidh mòran obrach a dhèanamh ann an raon lorg prìomh phuingean làimhe. Tha stòran-dàta ùra air nochdadh, a’ toirt a-steach an fheadhainn a tha stèidhichte air bhideothan de chòmhraidhean eadar dithis - a-nis faodaidh tu gluasadan làimhe a ro-innse bho chlaistinn no teacsa còmhraidh! Chaidh an aon adhartas a dhèanamh ann an gnìomhan tracadh sùla (tuairmse seallaidh).
Faodaidh aon cuideachd cruinneachadh mòr de dh’ obraichean a chomharrachadh co-cheangailte ri ro-innse gluasad daonna (mar eisimpleir,
Làimhseachadh le daoine ann an dealbhan agus bhideothan, seòmraichean uidheamachadh brìgheil
Is e am prìomh ghluasad ìomhaighean aghaidh atharrachadh a rèir crìochan a ghabhas mìneachadh. Beachdan: deepfake stèidhichte air aon dealbh, ag atharrachadh faireachdainn stèidhichte air toirt seachad aghaidh (
Cruthachadh bho sgeidsichean/grafaichean
Thàinig leasachadh a’ bheachd “Leig leis a’ ghriod rudeigin a ghineadh stèidhichte air eòlas a bh ’ann roimhe" gu bhith na fhear eile:“ Seallamaid don ghriod dè an roghainn anns a bheil ùidh againn. ”
Tha aon de 25 artaigilean Adobe airson ICCV a’ cothlamadh dà GAN: bidh aon a’ crìochnachadh an sgeidse airson an neach-cleachdaidh, am fear eile a’ gineadh ìomhaigh photorealistic bhon sgeidse (
Roimhe sin, cha robh feum air grafaichean ann an gineadh ìomhaighean, ach a-nis tha iad air an dèanamh mar ghobhar eòlais mun t-sealladh. Chaidh an duais Iomraidhean Urramach Pàipear as Fheàrr stèidhichte air toraidhean ICCV a bhuannachadh leis an artaigil cuideachd
Ath-chomharrachadh dhaoine is chàraichean, a’ cunntadh meud an t-sluaigh (!)
Tha mòran artaigilean gu sònraichte airson sùil a chumail air daoine agus ath-chomharrachadh dhaoine agus innealan. Ach an rud a chuir iongnadh oirnn bha dòrlach de artaigilean air cunntadh sluagh, uile à Sìona.
Postairean
Ach tha Facebook, air an làimh eile, gun urra ris an dealbh. Agus bidh e a ’dèanamh seo ann an dòigh inntinneach: bidh e a’ trèanadh an lìonra neural gus aghaidh a ghineadh gun mion-fhiosrachadh sònraichte - coltach, ach chan eil e cho coltach is gum faodar a chomharrachadh gu ceart le siostaman aithneachaidh aghaidh.
Dìon an aghaidh ionnsaighean draoidheil
Le leasachadh tagraidhean lèirsinn coimpiutair anns an fhìor shaoghal (ann an càraichean fèin-dràibhidh, ann an aithneachadh aghaidh), tha a ’cheist mu earbsachd nan siostaman sin a’ sìor fhàs ag èirigh. Gus CV a chleachdadh gu h-iomlan, feumaidh tu a bhith cinnteach gu bheil an siostam a’ seasamh an aghaidh ionnsaighean nàmhaid - is ann air sgàth sin nach robh nas lugha de artaigilean ann mu dhìon nan aghaidh na mu na h-ionnsaighean fhèin. Chaidh tòrr obrach a dhèanamh air a bhith a’ mìneachadh ro-innsean lìonraidh (mapa iomchaidheachd) agus a’ tomhas misneachd san toradh.
Gnìomhan còmhla
Anns a’ mhòr-chuid de ghnìomhan le aon targaid, tha na cothroman airson càileachd a leasachadh gu ìre mhòr sgìth; is e aon de na stiùiridhean ùra airson barrachd càileachd àrdachadh a bhith a’ teagasg lìonraidhean neural gus grunn dhuilgheadasan coltach ris fhuasgladh aig an aon àm. Eisimpleirean:
- ro-innse gnìomh + ro-innse sruth optigeach,
- taisbeanadh bhidio + taisbeanadh cànain (
-
Tha artaigilean ann cuideachd air sgaradh, suidheachadh suidheachadh agus ath-chomharrachadh bheathaichean!
Prìomh thachartasan
Bha fios air cha mhòr a h-uile artaigil ro-làimh, bha an teacsa ri fhaighinn air arXiv.org. Mar sin, tha coltas gu math neònach air taisbeanadh obraichean leithid Everybody Dance Now, FUNIT, Image2StyleGAN - tha iad sin nan obraichean glè fheumail, ach chan eil iad ùr. Tha e coltach gu bheil pròiseas clasaigeach foillseachaidhean saidheansail a 'briseadh sìos an seo - tha saidheans a' gluasad ro luath.
Tha e gu math duilich na h-obraichean as fheàrr a dhearbhadh - tha mòran dhiubh ann, tha na cuspairean eadar-dhealaichte. Fhuaireadh grunn artaigilean
Tha sinn airson cuideam a chuir air obraichean a tha inntinneach bho shealladh làimhseachadh ìomhaighean, leis gur e seo an cuspair againn. Thionndaidh iad a-mach gu bhith gu math ùr agus inntinneach dhuinn (chan eil sinn a’ leigeil oirnn a bhith cothromach).
SinGAN (duais pàipeir as fheàrr) agus InGAN
Singan:
Ingan:
Leasachadh air a’ bheachd Deep Image Prior bho Dmitry Ulyanov, Andrea Vedaldi agus Victor Lempitsky. An àite a bhith a’ trèanadh GAN air stòr-dàta, bidh na lìonraidhean ag ionnsachadh bho mhìrean den aon dealbh gus cuimhne a chumail air na staitistig a tha na bhroinn. Leigidh an lìonra ionnsaichte leat dealbhan a dheasachadh agus a bheothachadh (SinGAN) no ìomhaighean ùra de mheud sam bith a ghineadh bho inneach na h-ìomhaigh thùsail, a’ gleidheadh an structair ionadail (InGAN).
Singan:
Ingan:
A’ faicinn Dè nach urrainn GAN a ghineadh
Bidh lìonraidhean neural a bhios a’ gineadh ìomhaighean gu tric a’ gabhail vectar de fhuaim air thuaiream mar chur-a-steach. Ann an lìonra ionnsaichte, bidh mòran de vectaran cuir a-steach a’ cruthachadh àite, gluasadan beaga air adhart a bheir gu atharrachaidhean beaga san dealbh. Le bhith a’ cleachdadh optimization, faodaidh tu fuasgladh fhaighinn air an duilgheadas neo-sheasmhach: lorg vectar inntrigidh iomchaidh airson dealbh bhon fhìor shaoghal. Tha an t-ùghdar a’ sealltainn nach eil e cha mhòr a-riamh comasach dealbh a tha gu tur co-ionnan a lorg ann an lìonra neural. Chan eil cuid de nithean san dealbh air an gineadh (a rèir coltais air sgàth cho mòr sa tha na nithean sin).
Tha an t-ùghdar a’ gabhail beachd nach eil GAN a’ còmhdach farsaingeachd iomlan nan ìomhaighean, ach dìreach fo-sheata, làn de thuill, leithid càise. Nuair a dh’ fheuchas sinn ri dealbhan a lorg bhon fhìor shaoghal ann, bidh sinn an-còmhnaidh a’ fàiligeadh, oir tha GAN fhathast a’ gineadh dealbhan nach eil gu tur fìor. Chan urrainnear faighinn thairis air na h-eadar-dhealachaidhean eadar dealbhan fìor agus gineadh ach le bhith ag atharrachadh cuideaman an lìonra, is e sin, le bhith ga ath-thrèanadh airson dealbh sònraichte.
Nuair a tha an lìonra air a thrèanadh a bharrachd airson dealbh sònraichte, faodaidh tu feuchainn air diofar làimhseachadh leis an ìomhaigh seo. Anns an eisimpleir gu h-ìosal, chaidh uinneag a chur ris an dealbh, agus chruthaich an lìonra cuideachd meòrachadh air aonad a 'chidsin. Tha seo a 'ciallachadh nach do chaill an lìonra, eadhon an dèidh trèanadh a bharrachd airson togail dhealbhan, an comas an ceangal eadar nithean san t-sealladh fhaicinn.
GANalyze: A dh’ ionnsaigh Mìneachaidhean Lèirsinneach air Togalaichean Ìomhaigh Cognitive
A’ cleachdadh dòigh-obrach na h-obrach seo, faodaidh tu na tha an lìonra neural air ionnsachadh fhaicinn agus a sgrùdadh. Tha na h-ùghdaran a’ moladh GAN a thrèanadh gus dealbhan a chruthachadh airson an cruthaich an lìonra ro-innsean sònraichte. Chleachd an artaigil grunn lìonraidhean mar eisimpleirean, nam measg MemNet, a tha a’ ro-innse cuimhne dhealbhan. Thionndaidh e a-mach, airson cuimhne nas fheàrr, gum bu chòir don nì san dealbh:
- bhith nas fhaisge air an ionad
- biodh cumadh nas cruinne no ceàrnagach agad agus structar sìmplidh,
- bi air cùl-raon èideadh,
- cuir a-steach sùilean brìoghmhor (co-dhiù airson dealbhan cù),
- bi nas gile, nas shàthaichte, ann an cuid de chùisean, nas dearg.
Liquid Warping GAN: Frèam aonaichte airson aithris gluasad daonna, gluasad coltas agus co-shealladh sealladh ùr-nodha
Pìob-loidhne airson dealbhan a ghineadh de dhaoine aon dealbh aig an aon àm. Tha na h-ùghdaran a 'nochdadh eisimpleirean soirbheachail de bhith a' gluasad gluasad aon neach gu fear eile, a 'gluasad aodach eadar daoine agus a' cruthachadh ceàrnan ùra de dhuine - uile bho aon dealbh. Eu-coltach ri obraichean roimhe, an seo bidh sinn a’ cleachdadh chan e prìomh phuingean ann an 2D (suidheachadh), ach mogal bodhaig 3D (suidheachadh + cumadh) gus suidheachaidhean a chruthachadh. Dh'obraich na h-ùghdaran cuideachd a-mach mar a ghluaiseas iad fiosrachadh bhon ìomhaigh thùsail chun an fhear a chaidh a chruthachadh (Bloc Warping Liquid). Tha na toraidhean a’ coimhead math, ach chan eil ann an rùn na h-ìomhaigh ach 256x256. Airson coimeas a dhèanamh, tha vid2vid, a nochd bliadhna air ais, comasach air rùn 2048 × 1024 a ghineadh, ach feumaidh e suas ri 10 mionaidean de chlàradh bhidio mar stòr-dàta.
FSGAN: Atharrachadh agus Ath-bheothachadh Aghaidh Agnostic
An toiseach tha e coltach nach eil dad neo-àbhaisteach ann: sealladh domhainn le càileachd àbhaisteach nas motha no nas lugha. Ach is e prìomh choileanadh na h-obrach a bhith a’ toirt a-steach aghaidhean bho aon dealbh. Eu-coltach ri obraichean roimhe, bha feum air trèanadh air iomadh dealbh de neach sònraichte. Thionndaidh an loidhne-phìoban gu bhith trom (ath-aithris agus sgaradh, sealladh eadar-aghaidh, peantadh, measgachadh) agus le tòrr hacks teicnigeach, ach is fhiach an toradh e.
A’ lorg an fheadhainn ris nach robh dùil tro ath-synthesis ìomhaighean
Ciamar a thuigeas drone gu bheil nì air nochdadh gu h-obann air a bheulaibh nach eil a’ tighinn a-steach do chlas semantach sam bith? Tha grunn dhòighean ann, ach tha na h-ùghdaran a 'moladh algairim ùr, iongantach a tha ag obair nas fheàrr na an fheadhainn a bh' ann roimhe. Tha dùil ri sgaradh semantach bhon ìomhaigh rathaid a-steach. Tha e air a bhiadhadh mar chur-a-steach don GAN (pix2pixHD), a bhios a’ feuchainn ris an ìomhaigh thùsail a thoirt air ais a-mhàin bhon mhapa semantach. Bidh neo-riaghailteachdan nach tig a-steach do gin de na roinnean eadar-dhealaichte gu mòr anns an toradh agus an ìomhaigh a chaidh a chruthachadh. Tha na trì ìomhaighean (tùsail, sgaradh, agus ath-chruthachadh) an uairsin gan toirt a-steach do lìonra eile a tha a’ ro-innse neo-riaghailteachdan. Chaidh an dàta airson seo a chruthachadh bhon stòr-dàta ainmeil Cityscapes, ag atharrachadh nan clasaichean air an roinn semantach air thuaiream. Gu inntinneach, anns an t-suidheachadh seo, chan eil cù a tha na sheasamh ann am meadhan an rathaid, ach air a sgaradh gu ceart (a tha a 'ciallachadh gu bheil clas air a shon), na neo-riaghailteachd, oir bha an siostam comasach air aithneachadh.
co-dhùnadh
Ron cho-labhairt, tha e cudromach fios a bhith agad dè na h-ùidhean saidheansail a th’ agad, dè na taisbeanaidhean a bu mhath leat a bhith an làthair, agus cò ris am bruidhinn thu. An uairsin bidh a h-uile dad tòrr nas cinneasaiche.
Is e ICCV, sa chiad àite, lìonradh. Tha thu a’ tuigsinn gu bheil prìomh institiudan agus prìomh roinnean saidheansail ann, tòisichidh tu a’ tuigsinn seo, cuir eòlas air daoine. Agus faodaidh tu artaigilean a leughadh air arXiv - agus leis an t-slighe, tha e gu math fionnar nach fheum thu a dhol a dh'àite sam bith gus eòlas fhaighinn.
A bharrachd air an sin, aig a’ cho-labhairt faodaidh tu dàibheadh gu domhainn a-steach do chuspairean nach eil faisg ort agus gluasadan fhaicinn. Uill, sgrìobh liosta de artaigilean ri leughadh. Mas e oileanach a th’ annad, is e cothrom a tha seo dhut coinneachadh ri tidsear a dh’ fhaodadh a bhith ann, ma tha thu às a’ ghnìomhachas, an uairsin le fastaiche ùr, agus mas e companaidh a th’ ann, an uairsin airson sealltainn dhut fhèin.
Subscribe to
Source: www.habr.com