Шабакаҳои нейронӣ дар биниши компютерӣ фаъолона инкишоф меёбанд, бисёр мушкилот то ҳол ҳалли худро наёфтаанд. Барои тамоюли соҳаи худ будан, танҳо ба таъсиргузорон дар Twitter пайравӣ кунед ва мақолаҳои дахлдорро дар arXiv.org хонед. Аммо мо имкон доштем, ки ба Конфронси байналмилалии рӯъёи компютерӣ (ICCV) 2019 биравем. Имсол он дар Кореяи Ҷанубӣ баргузор мешавад. Ҳоло мо мехоҳем он чизеро, ки дидем ва омӯхтаем, бо хонандагони Ҳабр нақл кунем.
Дар он ҷо мо аз Яндекс бисёр буданд: таҳиягарони мошинҳои худгард, тадқиқотчиён ва онҳое, ки бо вазифаҳои CV дар хидматҳо сарукор доранд, омаданд. Аммо ҳоло мо мехоҳем нуқтаи назари каме субъективии дастаи мо - Лабораторияи иктишофии мошин (Yandex MILAB) -ро пешниҳод кунем. Бачаҳои дигар шояд ба конфронс аз зовияи худ нигоҳ карданд.
Лаборатория чӣ кор мекунад?Мо лоиҳаҳои таҷрибавии марбут ба тавлиди тасвирҳо ва мусиқӣ барои мақсадҳои фароғатӣ иҷро мекунем. Мо махсусан ба шабакаҳои нейронӣ таваҷҷӯҳ дорем, ки ба шумо имкон медиҳанд мундариҷаи корбарро тағир диҳед (барои аксҳо ин вазифаро манипуляцияи тасвир меноманд).
Дар ин чо конференцияхои илмй бисьёранд, вале конферен-цияхои олитарини онхо ба ном конферен-цияхои А* мебошанд, ки дар онхо одатан дар бораи технологияхои шавковар ва мухимтарин маколахо чоп карда мешаванд. Рӯйхати дақиқи конфронсҳои A* вуҷуд надорад, ин ҷо рӯйхати тахминӣ ва нопурра аст: NeurIPS (собиқ NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Се нафари охирин дар мавзӯи CV тахассус доранд.
ICCV дар як нигоҳ: плакатҳо, дастурҳо, семинарҳо, стендҳо
Дар конфронс 1075 маърӯза қабул шуда, 7500 нафар иштирок доштанд.103 нафар аз Русия омада, мақолаҳои кормандони Яндекс, Сколтех, Самсунг AI Маркази Москва ва Донишгоҳи Самара буданд. Имсол на чандон муҳаққиқони беҳтарин ба ICCV ташриф оварданд, аммо, масалан, Алексей (Алёша) Ефрос, ки ҳамеша одамони зиёдеро ҷалб мекунад:
Омор
Дар ҳама чунин конфронсҳо мақолаҳо дар шакли плакатҳо (
Инҳоянд баъзе аз корҳо аз Русия
Бо дарсҳо шумо метавонед ба як мавзӯи мушаххас ғарқ шавед; он лексияи донишгоҳро ба хотир меорад. Онро одатан дар бораи асархои конкретй нагуфта, як кас мехонад. Намунаи як дарси ҷолиб (
Дар семинархо, баръакс, дар бораи маколахо сухан меронанд. Одатан ин асархо дар мавзуъхои танг, хикояхои мудирони лаборатория дар бораи хамаи корхои охирини студентон ва ё маколахое мебошанд, ки ба конференцияи асосй кабул карда нашудаанд.
Ширкатҳои сарпарастӣ ба ICCV бо стендҳо меоянд. Имсол Google, Facebook, Amazon ва бисёр ширкатҳои дигари байналмилалӣ, инчунин шумораи зиёди стартапҳо - Корея ва Чин омаданд. Махсусан бисёр стартапҳо буданд, ки дар тамғагузории маълумот тахассус доштанд. Дар стендҳо намоишҳо мавҷуданд, шумо метавонед фурӯшро гиред ва савол диҳед. Бо мақсади шикор, ширкатҳои сарпарастӣ шабнишиниҳо доранд. Шумо метавонед ба онҳо ворид шавед, агар шумо ҷалбкунандагонро бовар кунонед, ки шумо манфиатдор ҳастед ва эҳтимолан аз мусоҳиба гузаштан мумкин аст. Агар шумо мақолае нашр карда бошед (ё, илова бар он, онро пешниҳод карда бошед), доктори илмро оғоз кардаед ё хатм карда бошед, ин як бартарист, аммо баъзан шумо метавонед дар стенд бо додани саволҳои ҷолиб ба муҳандисони ширкат гуфтушунид кунед.
Тамоюлҳо
Конфронс ба шумо имкон медиҳад, ки ба тамоми майдони CV назар андозед. Аз рӯи шумораи плакатҳо дар мавзӯи мушаххас шумо метавонед арзёбӣ кунед, ки мавзӯъ то чӣ андоза гарм аст. Баъзе хулосаҳо дар асоси калимаҳои калидӣ пешниҳод мекунанд:
Сифр-зарб, як зарба, кам-зарб, худидоракунӣ ва нимназорат: равишҳои нав ба вазифаҳои дарозмуддат
Одамон самараноктар истифода бурдани маълумотро меомӯзанд. Масалан, дар
3D ва 360°
Мушкилоте, ки асосан барои аксҳо (сегментатсия, ошкоркунӣ) ҳал карда шудаанд, барои моделҳои 3D ва видеоҳои панорамӣ таҳқиқоти иловагиро талаб мекунанд. Мо мақолаҳои зиёдеро дар бораи табдил додани RGB ва RGB-D ба 3D дидем. Баъзе мушкилот, аз қабили баҳодиҳии мавқеи инсонро метавон тавассути гузаштан ба моделҳои 3D ба таври табиӣ ҳал кард. Аммо дар бораи чӣ гуна ба таври дақиқ муаррифӣ кардани моделҳои XNUMXD - дар шакли тор, абри нуқта, вокселҳо ё SDF то ҳол консенсус вуҷуд надорад. Ин аст варианти дигар:
Дар панорамаҳо конволютсияҳо дар сфера фаъолона инкишоф меёбанд (ниг.
Муайян кардани поза ва пешгӯии ҳаракати инсон
Дар муайянкунии мавқеъ дар 2D аллакай пешрафтҳо ба даст омадаанд - ҳоло таваҷҷӯҳ ба кор бо камераҳои сершумор ва дар 3D равона шудааст. Масалан, шумо инчунин метавонед скелетро тавассути девор тавассути пайгирии тағирот дар сигнали Wi-Fi ҳангоми гузаштан аз бадани инсон муайян кунед.
Дар сохаи муайян кардани нуктахои калидии дастхо кори бисьёре анчом дода шудааст. Маҷмӯаҳои нав пайдо шуданд, аз ҷумла онҳо дар асоси видеоҳои муколамаи ду нафар - акнун шумо метавонед имову ишораҳои дастро аз аудио ё матни сӯҳбат пешгӯӣ кунед! Ҳамин пешрафт дар вазифаҳои пайгирии чашм (баҳодиҳии нигоҳ) ба даст оварда шудааст.
Инчунин як кластери калони корҳоеро, ки бо пешгӯии ҳаракати инсон алоқаманданд, муайян кардан мумкин аст (масалан,
Манипулятсия бо одамон дар аксҳо ва видеоҳо, утоқҳои мувофиқи виртуалӣ
Тамоюли асосӣ тағир додани тасвирҳои чеҳра аз рӯи параметрҳои тафсиршаванда мебошад. Идеяҳо: deepfake дар асоси як расм, тағир додани ифода дар асоси намоиши чеҳра (
Тавлид аз эскизҳо/графҳо
Таҳияи идеяи "Бигзор шабака чизе дар асоси таҷрибаи қаблӣ тавлид кунад" дигар шуд: "Биёед шабакаеро нишон диҳем, ки кадом вариант ба мо таваҷҷӯҳ дорад."
Яке аз 25 мақолаи Adobe барои ICCV ду GAN-ро муттаҳид мекунад: яке эскизро барои корбар анҷом медиҳад, дигаре аз эскиз тасвири фотореалистиро тавлид мекунад (
Пештар, графикҳо барои тавлиди тасвирҳо лозим набуданд, аммо ҳоло онҳо ба як контейнери дониш дар бораи саҳна табдил дода шудаанд. Ҷоизаи беҳтарин мақолаи фахрӣ аз рӯи натиҷаҳои ICCV низ аз ҷониби мақола ғолиб шуд
Муайянкунии дубораи одамон ва мошинҳо, ҳисоб кардани шумораи издиҳом (!)
Бисёр мақолаҳо ба пайгирии одамон ва аз нав муайян кардани одамон ва мошинҳо бахшида шудаанд. Аммо он чизе, ки моро ба ҳайрат овард, як қатор мақолаҳо дар бораи ҳисобкунии издиҳом буданд, ки ҳама аз Чин буданд.
Плакатхо
Аммо Facebook, баръакс, аксро беном мекунад. Ва ин корро ба таври ҷолиб анҷом медиҳад: он шабакаи нейронро барои тавлиди чеҳра бидуни тафсилоти беназир меомӯзонад - шабеҳ, аммо он қадар шабеҳ нест, ки онро тавассути системаҳои шинохти чеҳра дуруст муайян кардан мумкин аст.
Муҳофизат аз ҳамлаҳои муқобил
Бо рушди барномаҳои биниши компютерӣ дар ҷаҳони воқеӣ (дар мошинҳои худгард, дар шинохти чеҳра), масъалаи эътимоднокии чунин системаҳо торафт бештар ба миён меояд. Барои пурра истифода бурдани CV, шумо бояд боварӣ дошта бошед, ки система ба ҳамлаҳои муқобил тобовар аст - аз ин рӯ мақолаҳо дар бораи муҳофизат аз онҳо нисбат ба худи ҳамлаҳо камтар буданд. Барои фаҳмонидани пешгӯиҳои шабака (харитаи барҷаста) ва чен кардани эътимод ба натиҷа кори зиёде анҷом дода шудааст.
Вазифаҳои якҷоя
Дар аксари вазифаҳое, ки як ҳадаф доранд, имконотҳои беҳтар кардани сифат амалан тамом мешаванд; яке аз самтҳои нави баланд бардоштани сифат ин ба шабакаҳои нейронӣ омӯзонидани ҳамзамон якчанд масъалаҳои ба ҳам монанд мебошад. Мисолҳо:
— пешгӯии амал + пешгӯии ҷараёни оптикӣ,
— муаррифии видео + муаррифии забон (
-
Инчунин мақолаҳо дар бораи сегментатсия, муайянкунии поза ва аз нав идентификатсияи ҳайвонот мавҷуданд!
Нуктаҳои муҳим
Қариб ҳамаи мақолаҳо пешакӣ маълум буданд, матн дар arXiv.org дастрас буд. Аз ин рӯ, муаррифии чунин корҳо ба монанди Everybody Dance Now, FUNIT, Image2StyleGAN хеле аҷиб ба назар мерасад - ин асарҳои хеле муфиданд, аммо нав нестанд. Ба назар чунин мерасад, ки дар ин чо процесси классикии нашри илмй вайрон мешавад — илм хеле тез пеш меравад.
Бехтарин асархоро муайян кардан хеле душвор аст — онхо бисьёранд, мавзуъхо гуногунанд. Якчанд мақолаҳо гирифта шуданд
Мо мехоҳем корҳоеро, ки аз нуқтаи назари манипуляцияи тасвир ҷолибанд, таъкид кунем, зеро ин мавзӯи мост. Онҳо барои мо хеле тару тоза ва ҷолиб буданд (мо худро объективӣ вонамуд намекунем).
SinGAN (беҳтарин ҷоизаи коғазӣ) ва InGAN
Синган:
Инган:
Ташаккули тасвири амиқ Идеяи пештара аз Дмитрий Ульянов, Андреа Ведалди ва Виктор Лемпицкий. Ба ҷои омӯзиши GAN дар маҷмӯи додаҳо, шабакаҳо аз порчаҳои як расм меомӯзанд, то омори дохили онро дар хотир нигоҳ доранд. Шабакаи омӯзонидашуда ба шумо имкон медиҳад, ки аксҳоро таҳрир ва аниматсия кунед (SinGAN) ё аз матнҳои тасвири аслӣ бо нигоҳ доштани сохтори маҳаллӣ (InGAN) тасвирҳои нави ҳар андоза тавлид кунед.
Синган:
Инган:
Бубинед, ки GAN чӣ тавлид карда наметавонад
Шабакаҳои нейронӣ, ки тасвирҳо тавлид мекунанд, аксар вақт ҳамчун вуруд вектори садои тасодуфиро мегиранд. Дар шабакаи омӯзонидашуда, бисёр векторҳои воридотӣ фазоеро ташкил медиҳанд, ки ҳаракатҳои хурд дар баробари он ба тағйироти хурд дар расм оварда мерасонанд. Бо истифода аз оптимизатсия, шумо метавонед масъалаи баръаксро ҳал кунед: вектори мувофиқро барои тасвир аз ҷаҳони воқеӣ пайдо кунед. Муаллиф нишон медиҳад, ки дар шабакаи нейронӣ пайдо кардани тасвири комилан мувофиқ қариб ҳеҷ гоҳ имконнопазир аст. Баъзе объектҳо дар расм тавлид нашудаанд (аз афташ аз сабаби тағирёбии зиёди ин объектҳо).
Муаллиф фарзия мекунад, ки GAN тамоми фазои тасвирҳоро фаро намегирад, балки танҳо баъзе зермаҷмӯаҳо, ки бо сӯрохиҳо, ба монанди панир пур карда шудаанд. Вақте ки мо кӯшиш мекунем, ки аксҳоро аз ҷаҳони воқеӣ дар он пайдо кунем, мо ҳамеша ноком мешавем, зеро GAN ҳоло ҳам на пурра аксҳои воқеӣ тавлид мекунад. Тафовутҳои байни тасвирҳои воқеӣ ва тавлидшуда танҳо тавассути тағир додани вазнҳои шабака, яъне тавассути такмил додани он барои аксҳои мушаххас бартараф карда мешаванд.
Вақте ки шабака ба таври иловагӣ барои аксҳои мушаххас омӯзонида мешавад, шумо метавонед бо ин тасвир амалҳои гуногунро санҷед. Дар мисоли дар поён овардашуда, ба акс равзана илова карда шуд ва шабака ба таври илова инъикосро дар воҳиди ошхона тавлид кард. Ин маънои онро дорад, ки шабака ҳатто пас аз омӯзиши иловагӣ барои аксбардорӣ, қобилияти дидани робитаи байни ашёҳо дар саҳнаро гум накардааст.
GANAlyze: Ба таърифҳои визуалии хосиятҳои тасвири маърифатӣ
Бо истифода аз равиш аз ин кор, шумо метавонед он чизеро, ки шабакаи нейронӣ омӯхтааст, тасаввур кунед ва таҳлил кунед. Муаллифон пешниҳод мекунанд, ки GAN-ро барои эҷод кардани тасвирҳо омӯзонанд, ки шабака барои онҳо пешгӯиҳои мушаххас тавлид кунад. Дар мақола якчанд шабакаҳо мисол шуда буданд, аз ҷумла MemNet, ки хотираи аксҳоро пешгӯӣ мекунад. Маълум шуд, ки барои беҳтар хотиравӣ, объект дар акс бояд:
- ба марказ наздиктар бошад
- шакли мудаввар ё мураббаъ бештар ва сохтори оддӣ доранд,
- дар заминаи ягона будан,
- дорои чашмони ифодакунанда (ҳадди ақал барои аксҳои саг),
- равшантар, серобтар, дар баъзе мавридҳо сурхтар бошад.
GAN: Чаҳорчӯби ягона барои тақлид кардани ҳаракати инсон, интиқоли намуди зоҳирӣ ва синтези назари нав
Қубур барои тавлиди аксҳои одамон дар як вақт. Муаллифон мисолхои бомуваффакияти гузарондани харакати як одам ба каси дигар, гузарондани либос дар байни одамон ва ба вучуд овардани кунчхои нави одам — хама аз як сурат нишон медиханд. Баръакси корҳои қаблӣ, дар ин ҷо мо на нуқтаҳои калидӣ дар 2D (поза), балки торчаи 3D-и бадан (поза + шакл) барои фароҳам овардани шароит истифода мебарем. Муаллифон инчунин фаҳмиданд, ки чӣ гуна маълумотро аз тасвири аслӣ ба тасвири тавлидшуда интиқол додан мумкин аст (Блоки моеъ). Натиҷаҳо хуб ба назар мерасанд, аммо ҳалли тасвири натиҷавӣ танҳо 256x256 аст. Барои муқоиса, vid2vid, ки як сол пеш пайдо шуда буд, қодир аст дар қарори 2048x1024 тавлид кунад, аммо он ҳамчун маҷмӯи додаҳо то 10 дақиқа сабти видеоро талаб мекунад.
FSGAN: Мавзӯи ивазкунии чеҳраи агностикӣ ва бозсозӣ
Дар аввал чунин ба назар мерасад, ки ҳеҷ чизи ғайриоддӣ вуҷуд надорад: чуқури фейк бо сифати кам ё камтар муқаррарӣ. Аммо дастоварди асосии кор иваз кардани чеҳраҳо аз як сурат аст. Баръакси корҳои қаблӣ, омӯзиши бисёр аксҳои шахси мушаххас талаб карда мешуд. Қубур душвор буд (таҷдид ва сегментатсия, интерполясияи дидан, ранг кардан, омехта кардан) ва бо ҳакерҳои зиёди техникӣ, аммо натиҷа ба он меарзад.
Муайян кардани ғайричашмдошт тавассути ресинтези тасвир
Чӣ тавр дрон метавонад фаҳмад, ки объекте ногаҳон дар назди он пайдо шудааст, ки ба ягон синфи сегментатсияи семантикӣ дохил намешавад? Якчанд усул вуҷуд дорад, аммо муаллифон як алгоритми нави интуитивиро пешниҳод мекунанд, ки нисбат ба пешгузаштагони худ беҳтар кор мекунад. Семантикии сегментатсия аз тасвири роҳ пешгӯӣ карда мешавад. Он ҳамчун вуруд ба GAN (pix2pixHD) дода мешавад, ки кӯшиш мекунад тасвири аслиро танҳо аз харитаи семантикӣ барқарор кунад. Аномалияҳое, ки ба ҳеҷ яке аз сегментҳо дохил намешаванд, дар натиҷа ва тасвири тавлидшуда ба таври назаррас фарқ мекунанд. Пас аз он се тасвир (аслӣ, сегментатсия ва барқароршуда) ба шабакаи дигар ворид карда мешаванд, ки аномалияҳоро пешгӯӣ мекунанд. Маҷмӯи додаҳо барои ин аз маҷмӯаи маъруфи Cityscapes тавлид шуда, ба таври тасодуфӣ синфҳоро дар сегментатсияи семантикӣ иваз мекунад. Ҷолиб он аст, ки дар ин шароит саге, ки дар мобайни роҳ истодааст, вале дуруст тақсим карда шудааст (яъне барои он синф мавҷуд аст) аномалия нест, зеро система тавонист онро эътироф кунад.
хулоса
Пеш аз баргузории конфронс муҳим аст, ки донед, ки шавқу рағбатҳои илмии шумо чист, шумо дар кадом маърӯзаҳо иштирок кардан мехоҳед ва бо кӣ сӯҳбат кунед. Он гоҳ ҳама чиз хеле самараноктар мешавад.
ICCV, пеш аз ҳама, шабака мебошад. Шумо мефаҳмед, ки донишкадаҳои олӣ ва кафедраҳои илмии олӣ ҳастанд, шумо инро мефаҳмед, одамонро мешиносед. Ва шумо метавонед мақолаҳоро дар arXiv хонед - ва дар омади гап, хеле аҷиб аст, ки барои гирифтани дониш ба шумо лозим нест, ки ба ягон ҷо равед.
Илова бар ин, дар конфронс шумо метавонед ба мавзӯъҳое, ки ба шумо наздик нестанд, амиқ ғарқ шавед ва тамоюлҳоро бубинед. Хуб, рӯйхати мақолаҳоро барои хондан нависед. Агар шумо донишҷӯ бошед, ин имконест барои шиносоӣ бо омӯзгори эҳтимолӣ, агар шумо аз ин соҳа бошед, пас бо корфармои нав ва агар ширкат дошта бошед, пас худро нишон диҳед.
Обуна ба
Манбаъ: will.com