
Mae rhwydweithiau niwral mewn gweledigaeth gyfrifiadurol yn datblygu'n weithredol, mae llawer o broblemau yn dal i fod ymhell o gael eu datrys. I fod ar duedd yn eich maes, dilynwch y dylanwadwyr ar Twitter a darllenwch erthyglau perthnasol ar arXiv.org. Ond cawsom gyfle i fynd i'r Gynhadledd Ryngwladol ar Weledigaeth Cyfrifiadurol (ICCV) 2019. Eleni mae'n cael ei chynnal yn Ne Korea. Nawr rydym am rannu gyda darllenwyr Habr yr hyn a welsom ac a ddysgom.
Roedd yna lawer ohonom yno o Yandex: daeth datblygwyr ceir hunan-yrru, ymchwilwyr, a'r rhai sy'n delio â thasgau CV mewn gwasanaethau. Ond nawr rydyn ni am gyflwyno safbwynt ychydig yn oddrychol o'n tîm - y Labordy Cudd-wybodaeth Pheiriannau (Yandex MILAB). Mae'n debyg bod y dynion eraill wedi edrych ar y gynhadledd o'u safbwynt eu hunain.
Beth mae'r labordy yn ei wneud?Rydym yn cynnal prosiectau arbrofol sy'n ymwneud â chynhyrchu delweddau a cherddoriaeth at ddibenion adloniant. Mae gennym ddiddordeb arbennig mewn rhwydweithiau niwral sy'n eich galluogi i newid cynnwys y defnyddiwr (ar gyfer lluniau, gelwir y dasg hon yn drin delweddau). canlyniad ein gwaith o gynhadledd YaC 2019.
Mae yna lawer o gynadleddau gwyddonol, ond mae'r rhai gorau yn sefyll allan, yr hyn a elwir yn gynadleddau A*, lle mae erthyglau ar y technolegau mwyaf diddorol a phwysig yn cael eu cyhoeddi fel arfer. Nid oes union restr o gynadleddau A*, dyma restr fras ac anghyflawn: NeurIPS (NIPS gynt), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Mae'r tri olaf yn arbenigo yn y pwnc CV.
Cipolwg ar ICCV: posteri, tiwtorialau, gweithdai, stondinau
Derbyniodd y gynhadledd 1075 o bapurau, roedd 7500 o gyfranogwyr yn dod o Rwsia, roedd erthyglau gan weithwyr Yandex, Skoltech, Samsung AI Center Moscow a Phrifysgol Samara. Eleni, ni ymwelodd llawer o brif ymchwilwyr ag ICCV, ond, er enghraifft, Alexey (Alyosha) Efros, sydd bob amser yn denu llawer o bobl:

Ystadegau 




Ym mhob cynhadledd o'r fath, cyflwynir erthyglau ar ffurf posteri ( am y fformat), a chyflwynir y rhai gorau hefyd ar ffurf adroddiadau byr.
Dyma rai o'r gweithiau o Rwsia 


Gyda thiwtorialau gallwch blymio i faes pwnc penodol; mae'n atgoffa rhywun o ddarlith mewn prifysgol. Mae'n cael ei ddarllen gan un person, fel arfer heb sôn am weithiau penodol. Enghraifft o diwtorial cŵl ():

Mewn gweithdai, i'r gwrthwyneb, maent yn siarad am erthyglau. Fel arfer mae'r rhain yn weithiau mewn rhyw bwnc cul, straeon gan benaethiaid labordai am holl waith diweddaraf myfyrwyr, neu erthyglau na dderbyniwyd i'r brif gynhadledd.
Mae cwmnïau noddi yn dod i ICCV gyda stondinau. Eleni, daeth Google, Facebook, Amazon a llawer o gwmnïau rhyngwladol eraill, yn ogystal â nifer fawr o fusnesau newydd - Corea a Tsieineaidd. Roedd yna lawer o fusnesau cychwynnol a oedd yn arbenigo mewn tagio data yn arbennig. Mae perfformiadau ar y stondinau, gallwch fynd â merch a gofyn cwestiynau. At ddibenion hela, mae gan gwmnïau noddi bartïon. Gallwch fynd i mewn iddynt os byddwch yn argyhoeddi recriwtwyr bod gennych ddiddordeb ac y gallwch o bosibl basio cyfweliadau. Os ydych chi wedi cyhoeddi erthygl (neu, ar ben hynny, wedi'i chyflwyno), wedi dechrau neu'n gorffen PhD, mae hyn yn fantais, ond weithiau gallwch chi drafod ar y stondin trwy ofyn cwestiynau diddorol i beirianwyr y cwmni.
Tueddiadau
Mae'r gynhadledd yn caniatáu ichi edrych ar y maes CV cyfan. Yn ôl nifer y posteri ar bwnc penodol, gallwch chi asesu pa mor boeth yw'r pwnc. Mae rhai casgliadau yn awgrymu eu hunain yn seiliedig ar yr allweddeiriau:

Dim ergyd, un ergyd, ychydig ergyd, hunan-oruchwyliaeth a lled-oruchwyliaeth: ymagweddau newydd at dasgau hir-astudiedig
Mae pobl yn dysgu defnyddio data yn fwy effeithiol. Er enghraifft, yn mae'n bosibl cynhyrchu mynegiant wyneb anifeiliaid nad oeddent yn y set hyfforddi (wrth gymhwyso, trwy ddarparu sawl llun cyfeirio). Mae syniadau Deep Image Prior wedi'u datblygu, a nawr gellir hyfforddi rhwydweithiau GAN ar ddelwedd sengl - byddwn yn siarad am hyn isod . Gallwch ddefnyddio hunan-oruchwyliaeth ar gyfer rhag-hyfforddiant (datrys problem y gallwch chi syntheseiddio data wedi'i alinio ar ei chyfer, fel rhagfynegi ongl cylchdroi llun) neu ddysgu ar yr un pryd o ddata wedi'i labelu a heb ei labelu. Yn yr ystyr hwn, gellir ystyried yr erthygl yn goron y greadigaeth . A dyma'r rhag-hyfforddiant ar ImageNet yn helpu.


3D a 360°
Mae problemau a gafodd eu datrys yn bennaf ar gyfer lluniau (segmentu, canfod) yn gofyn am ymchwil ychwanegol ar gyfer modelau 3D a fideos panoramig. Rydym wedi gweld llawer o erthyglau ar drosi RGB ac RGB-D i 3D. Gellir datrys rhai problemau, megis amcangyfrif ystum dynol, yn fwy naturiol trwy symud i fodelau 3D. Ond nid oes consensws eto ar sut yn union i gynrychioli modelau XNUMXD - ar ffurf rhwyll, cwmwl pwynt, voxels neu SDF. Dyma opsiwn arall:

Mewn panoramâu, mae convolutions ar y sffêr yn datblygu'n weithredol (gweler. ) a chwilio am wrthrychau allweddol yn y ffrâm.

Canfod ystumiau a rhagfynegi symudiad dynol
Bu datblygiadau eisoes o ran canfod ystumiau mewn 2D - nawr mae'r ffocws wedi symud tuag at weithio gyda chamerâu lluosog ac mewn 3D. Er enghraifft, gallwch hefyd ganfod sgerbwd trwy wal trwy olrhain newidiadau yn y signal Wi-Fi wrth iddo fynd trwy'r corff dynol.
Mae llawer o waith wedi'i wneud ym maes canfod allweddellau llaw. Mae setiau data newydd wedi ymddangos, gan gynnwys y rhai sy'n seiliedig ar fideos o ddeialogau rhwng dau berson - nawr gallwch chi ragweld ystumiau llaw o sain neu destun sgwrs! Mae'r un cynnydd wedi'i wneud mewn tasgau olrhain llygaid (amcangyfrif syllu).


Gall rhywun hefyd nodi clwstwr mawr o weithiau sy'n ymwneud â rhagfynegi symudiadau dynol (er enghraifft, neu ). Mae'r dasg yn bwysig ac, yn seiliedig ar sgyrsiau gyda'r awduron, fe'i defnyddir amlaf i ddadansoddi ymddygiad cerddwyr wrth yrru'n annibynnol.
Triniaethau gyda phobl mewn lluniau a fideos, ystafelloedd gosod rhithwir
Y prif duedd yw newid delweddau wyneb yn ôl paramedrau dehongliadwy. Syniadau: ffug ddwfn yn seiliedig ar un llun, newid mynegiant yn seiliedig ar rendrad wyneb (), porthiant - newid paramedrau (er enghraifft, ). Mae trosglwyddiadau arddull wedi symud o deitl y testun i gymhwysiad y gwaith. Mae ystafelloedd gosod rhithwir yn stori wahanol; demos.


Cynhyrchu o frasluniau/graffiau
Daeth datblygiad y syniad “Gadewch i’r grid gynhyrchu rhywbeth yn seiliedig ar brofiad blaenorol” yn un arall: “Dewch i ni ddangos i’r grid pa opsiwn sydd o ddiddordeb i ni.”
yn eich galluogi i wneud paent dan arweiniad: gall y defnyddiwr orffen paentio rhan o'r wyneb yn yr ardal sydd wedi'i dileu o'r llun a chael llun wedi'i adfer yn dibynnu ar ei gwblhau.

Mae un o 25 o erthyglau Adobe ar gyfer ICCV yn cyfuno dau GAN: mae un yn cwblhau'r braslun ar gyfer y defnyddiwr, a'r llall yn cynhyrchu delwedd ffotorealistig o'r braslun ().

Yn flaenorol, nid oedd angen graffiau wrth gynhyrchu delweddau, ond erbyn hyn maent wedi'u gwneud yn gynhwysydd gwybodaeth am yr olygfa. Enillwyd gwobr Syniadau Anrhydeddus y Papur Gorau yn seiliedig ar ganlyniadau ICCV gan yr erthygl hefyd . Yn gyffredinol, gallwch eu defnyddio mewn gwahanol ffyrdd: cynhyrchu graffiau o luniau, neu luniau a thestunau o graffiau.

Ail-adnabod pobl a cheir, gan gyfrif maint y dorf (!)
Mae llawer o erthyglau wedi'u neilltuo i olrhain pobl ac ail-adnabod pobl a pheiriannau. Ond yr hyn a'n synnodd oedd criw o erthyglau ar gyfrif torfeydd, i gyd o Tsieina.
Posteri 




Ond mae Facebook, i'r gwrthwyneb, yn gwneud y llun yn ddienw. Ac mae'n gwneud hyn mewn ffordd ddiddorol: mae'n hyfforddi'r rhwydwaith niwral i gynhyrchu wyneb heb fanylion unigryw - tebyg, ond nid mor debyg fel y gellir ei adnabod yn gywir gan systemau adnabod wynebau.

Amddiffyniad rhag ymosodiadau gwrthwynebus
Gyda datblygiad cymwysiadau gweledigaeth gyfrifiadurol yn y byd go iawn (mewn ceir hunan-yrru, mewn adnabod wynebau), mae'r cwestiwn o ddibynadwyedd systemau o'r fath yn codi'n gynyddol. I ddefnyddio CV yn llawn, mae angen i chi fod yn siŵr bod y system yn gallu gwrthsefyll ymosodiadau gwrthwynebus - dyna pam nad oedd llai o erthyglau am amddiffyniad yn eu herbyn nag am yr ymosodiadau eu hunain. Mae llawer o waith wedi'i wneud ar egluro rhagfynegiadau rhwydwaith (map amlygrwydd) a mesur hyder yn y canlyniad.
Tasgau cyfun
Yn y rhan fwyaf o dasgau gydag un targed, mae'r posibiliadau ar gyfer gwella ansawdd bron wedi'u disbyddu; un o'r cyfarwyddiadau newydd ar gyfer cynyddu ansawdd ymhellach yw dysgu rhwydweithiau niwral i ddatrys nifer o broblemau tebyg ar yr un pryd. Enghreifftiau:
- rhagfynegiad gweithredu + rhagfynegiad llif optegol,
— cyflwyniad fideo + cyflwyniad iaith (),
- .
Mae yna hefyd erthyglau ar segmentu, penderfyniad ystum ac ail-adnabod anifeiliaid!


Uchafbwyntiau
Roedd bron pob erthygl yn hysbys ymlaen llaw, roedd y testun ar gael ar arXiv.org. Felly, mae cyflwyniad gweithiau fel Everybody Dance Now, FUNIT, Image2StyleGAN yn ymddangos braidd yn rhyfedd - mae'r rhain yn weithiau defnyddiol iawn, ond nid yn newydd. Mae'n ymddangos bod y broses glasurol o gyhoeddiadau gwyddonol yn chwalu yma - mae gwyddoniaeth yn symud yn rhy gyflym.
Mae'n anodd iawn pennu'r gweithiau gorau - mae yna lawer ohonyn nhw, mae'r pynciau'n wahanol. Derbyniwyd nifer o erthyglau .
Rydym am dynnu sylw at weithiau sy'n ddiddorol o safbwynt trin delweddau, gan mai dyma ein pwnc. Maent yn troi allan i fod yn eithaf ffres a diddorol i ni (nid ydym yn cymryd arnom i fod yn wrthrychol).
SinGAN (gwobr papur gorau) ac InGAN
SinGAN: , , .
InGAN: , , .
Datblygiad syniad Deep Image Prior gan Dmitry Ulyanov, Andrea Vedaldi a Victor Lempitsky. Yn lle hyfforddi GAN ar set ddata, mae'r rhwydweithiau'n dysgu o ddarnau o'r un llun er mwyn cofio'r ystadegau y tu mewn iddo. Mae'r rhwydwaith hyfforddedig yn eich galluogi i olygu ac animeiddio lluniau (SinGAN) neu gynhyrchu delweddau newydd o unrhyw faint o weadau'r ddelwedd wreiddiol, gan gadw'r strwythur lleol (InGAN).
SinGAN:

InGAN:

Gweld Yr Hyn Na All GAN ei Gynhyrchu
.
Mae rhwydweithiau niwral sy'n cynhyrchu delweddau yn aml yn cymryd fector o sŵn ar hap fel mewnbwn. Mewn rhwydwaith hyfforddedig, mae llawer o fectorau mewnbwn yn ffurfio gofod, symudiadau bach ar hyd sy'n arwain at newidiadau bach yn y llun. Gan ddefnyddio optimeiddio, gallwch chi ddatrys y broblem wrthdro: dod o hyd i fector mewnbwn addas ar gyfer llun o'r byd go iawn. Mae'r awdur yn dangos nad yw bron byth yn bosibl dod o hyd i lun sy'n cyfateb yn gyfan gwbl mewn rhwydwaith niwral. Nid yw rhai gwrthrychau yn y llun yn cael eu cynhyrchu (yn ôl pob tebyg oherwydd amrywioldeb mawr y gwrthrychau hyn).

Mae'r awdur yn rhagdybio nad yw GAN yn gorchuddio'r gofod cyfan o ddelweddau, ond dim ond rhywfaint o is-set, wedi'i stwffio â thyllau, fel caws. Pan geisiwn ddod o hyd i luniau o'r byd go iawn ynddo, byddwn bob amser yn methu, oherwydd mae GAN yn dal i gynhyrchu lluniau nad ydynt yn hollol real. Dim ond trwy newid pwysau'r rhwydwaith y gellir goresgyn y gwahaniaethau rhwng lluniau go iawn a rhai a gynhyrchir, hynny yw, trwy ei ailhyfforddi ar gyfer llun penodol.

Pan fydd y rhwydwaith wedi'i hyfforddi hefyd ar gyfer llun penodol, gallwch chi roi cynnig ar wahanol driniaethau gyda'r ddelwedd hon. Yn yr enghraifft isod, ychwanegwyd ffenestr at y llun, a chynhyrchodd y rhwydwaith fyfyrdodau ar yr uned gegin hefyd. Mae hyn yn golygu nad oedd y rhwydwaith, hyd yn oed ar ôl hyfforddiant ychwanegol ar gyfer ffotograffiaeth, wedi colli'r gallu i weld y cysylltiad rhwng gwrthrychau yn yr olygfa.

Ganalyze: Tuag at Ddiffiniadau Gweledol o Priodweddau Delwedd Gwybyddol
, .
Gan ddefnyddio’r dull o’r gwaith hwn, gallwch ddelweddu a dadansoddi’r hyn y mae’r rhwydwaith niwral wedi’i ddysgu. Mae'r awduron yn bwriadu hyfforddi GAN i greu lluniau y bydd y rhwydwaith yn cynhyrchu rhagfynegiadau penodol ar eu cyfer. Defnyddiodd yr erthygl sawl rhwydwaith fel enghreifftiau, gan gynnwys MemNet, sy'n rhagweld cofadwyedd lluniau. Mae'n troi allan, er mwyn gwell cof, y gwrthrych yn y llun dylai:
- bod yn agosach at y ganolfan
- bod â siâp mwy crwn neu sgwâr a strwythur syml,
- bod ar gefndir unffurf,
- cynnwys llygaid mynegiannol (o leiaf ar gyfer lluniau cŵn),
- byddwch yn fwy disglair, yn fwy dirlawn, mewn rhai achosion, yn goch.

GAN Ystorri Hylif: Fframwaith Unedig ar gyfer Dynwared Mudiant Dynol, Trosglwyddo Ymddangosiad a Synthesis Gwedd Nofel
, , .
Piblinell ar gyfer cynhyrchu lluniau o bobl un llun ar y tro. Mae'r awduron yn dangos enghreifftiau llwyddiannus o drosglwyddo symudiad un person i'r llall, trosglwyddo dillad rhwng pobl a chynhyrchu onglau newydd o berson - i gyd o un ffotograff. Yn wahanol i weithiau blaenorol, yma rydym yn defnyddio nid pwyntiau allweddol mewn 2D (perfedd), ond rhwyll 3D o'r corff (osgo + siâp) i greu amodau. Fe wnaeth yr awduron hefyd ddarganfod sut i drosglwyddo gwybodaeth o'r ddelwedd wreiddiol i'r un a gynhyrchwyd (Bloc Warping Hylif). Mae'r canlyniadau'n edrych yn weddus, ond dim ond 256x256 yw cydraniad y ddelwedd ganlyniadol. Er mwyn cymharu, mae vid2vid, a ymddangosodd flwyddyn yn ôl, yn gallu cynhyrchu datrysiad o 2048x1024, ond mae angen cymaint â 10 munud o recordiad fideo fel set ddata.

FSGAN: Cyfnewid Wyneb Agnostig Pwnc ac Ail-greu
, .
Ar y dechrau, mae'n ymddangos nad oes unrhyw beth anarferol: ffug ddwfn gydag ansawdd arferol mwy neu lai. Ond prif gamp y gwaith yw amnewid wynebau o un llun. Yn wahanol i weithiau blaenorol, roedd angen hyfforddiant ar lawer o ffotograffau o berson penodol. Trodd y biblinell yn feichus (ail-greu a segmentu, rhyngosod golygfa, peintio, cymysgu) a chyda llawer o haciau technegol, ond mae'r canlyniad yn werth chweil.

Canfod Yr Annisgwyl trwy Ailsynthesis Delwedd
.
Sut gall drôn ddeall bod gwrthrych wedi ymddangos yn sydyn o'i flaen nad yw'n perthyn i unrhyw ddosbarth segmentu semantig? Mae yna sawl dull, ond mae'r awduron yn cynnig algorithm newydd, greddfol sy'n gweithio'n well na'i ragflaenwyr. Rhagfynegir segmentu semantig o'r ddelwedd ffordd fewnbwn. Mae'n cael ei fwydo fel mewnbwn i'r GAN (pix2pixHD), sy'n ceisio adfer y ddelwedd wreiddiol yn unig o'r map semantig. Bydd anghysondebau nad ydynt yn perthyn i unrhyw un o'r segmentau yn amrywio'n sylweddol yn yr allbwn a'r ddelwedd a gynhyrchir. Yna mae'r tair delwedd (gwreiddiol, segmentu, ac ail-greu) yn cael eu bwydo i mewn i rwydwaith arall sy'n rhagweld anghysondebau. Cynhyrchwyd y set ddata ar gyfer hyn o'r set ddata Cityscapes adnabyddus, gan newid y dosbarthiadau ar y segmentiad semantig ar hap. Yn ddiddorol, yn y lleoliad hwn, nid yw ci sy'n sefyll yng nghanol y ffordd, ond wedi'i segmentu'n gywir (sy'n golygu bod dosbarth ar ei gyfer), yn anghysondeb, gan fod y system yn gallu ei adnabod.

Casgliad
Cyn y gynhadledd, mae'n bwysig gwybod beth yw eich diddordebau gwyddonol, pa gyflwyniadau yr hoffech eu mynychu, a gyda phwy i siarad. Yna bydd popeth yn llawer mwy cynhyrchiol.
ICCV, yn gyntaf oll, yw rhwydweithio. Rydych chi'n deall bod yna sefydliadau gorau ac adrannau gwyddonol gorau, rydych chi'n dechrau deall hyn, yn dod i adnabod pobl. A gallwch ddarllen erthyglau ar arXiv - a gyda llaw, mae'n cŵl iawn nad oes rhaid i chi fynd i unman i gael gwybodaeth.
Yn ogystal, yn y gynhadledd gallwch blymio'n ddwfn i bynciau nad ydynt yn agos atoch a gweld tueddiadau. Wel, ysgrifennwch restr o erthyglau i'w darllen. Os ydych chi'n fyfyriwr, mae hwn yn gyfle i chi gwrdd â darpar athro, os ydych chi'n dod o'r diwydiant, yna gyda chyflogwr newydd, ac os yw'n gwmni, yna i ddangos eich hun.
Tanysgrifiwch i ! Mae hwn yn brosiect personol: rydym yn ei arwain gyda'n gilydd . Postiwyd yr holl weithiau yr oeddem yn eu hoffi yn ystod y gynhadledd yma: .
Ffynhonnell: hab.com
