Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019

Jaringan saraf dalam visi komputer berkembang secara aktif, banyak masalah yang masih belum terselesaikan. Untuk menjadi tren di bidang Anda, cukup ikuti influencer di Twitter dan baca artikel relevan di arXiv.org. Namun kami berkesempatan untuk menghadiri International Conference on Computer Vision (ICCV) 2019. Tahun ini diadakan di Korea Selatan. Sekarang kami ingin berbagi dengan pembaca Habr apa yang kami lihat dan pelajari.

Ada banyak dari kami di sana dari Yandex: pengembang mobil self-driving, peneliti, dan mereka yang menangani tugas CV di bidang jasa datang. Namun sekarang kami ingin menyajikan sudut pandang yang sedikit subjektif dari tim kami - Machine Intelligence Laboratory (Yandex MILAB). Orang lain mungkin melihat konferensi itu dari sudut pandang mereka sendiri.

Apa yang dilakukan laboratorium?Kami melakukan proyek eksperimental yang berkaitan dengan pembuatan gambar dan musik untuk tujuan hiburan. Kami terutama tertarik pada jaringan saraf yang memungkinkan Anda mengubah konten dari pengguna (untuk foto, tugas ini disebut manipulasi gambar). Contoh hasil kerja kami dari konferensi YaC 2019.
Ada banyak konferensi ilmiah, namun yang paling menonjol adalah konferensi A*, yang biasanya menerbitkan artikel tentang teknologi paling menarik dan penting. Tidak ada daftar pasti konferensi A*, berikut adalah daftar perkiraan dan tidak lengkap: NeurIPS (sebelumnya NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Tiga yang terakhir mengkhususkan diri pada topik CV.

Sekilas tentang ICCV: poster, tutorial, lokakarya, stand

Konferensi ini menerima 1075 makalah, peserta 7500 orang, berasal dari Rusia 103 orang, ada artikel dari karyawan Yandex, Skoltech, Samsung AI Center Moscow dan Samara University. Tahun ini tidak banyak peneliti papan atas yang mengunjungi ICCV, tapi misalnya Alexei (Alyosha) Efros yang selalu menarik perhatian banyak orang:

Tren dalam visi komputer. Sorotan ICCV 2019

statistika Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019

Di semua konferensi tersebut, artikel disajikan dalam bentuk poster (lebih tentang formatnya), dan yang terbaik juga disajikan dalam bentuk laporan singkat.

Berikut beberapa karya dari Rusia Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019

Dengan tutorial, Anda dapat mendalami bidang studi tertentu; ini mengingatkan pada perkuliahan di universitas. Dibaca oleh satu orang, biasanya tanpa membicarakan karya tertentu. Contoh tutorial yang keren (Michael Brown, Memahami Warna dan Saluran Pemrosesan Gambar Dalam Kamera untuk Computer Vision):

Tren dalam visi komputer. Sorotan ICCV 2019

Sebaliknya, di lokakarya, mereka membicarakan artikel. Biasanya berupa karya dengan topik yang sempit, cerita dari kepala laboratorium tentang semua karya mahasiswa terkini, atau artikel yang tidak diterima pada konferensi utama.

Perusahaan sponsor datang ke ICCV dengan membawa stand. Tahun ini, Google, Facebook, Amazon dan banyak perusahaan internasional lainnya datang, serta sejumlah besar startup – Korea dan Cina. Ada banyak sekali startup yang berspesialisasi dalam penandaan data. Ada pertunjukan di stand, Anda dapat mengambil merchandise dan mengajukan pertanyaan. Untuk tujuan berburu, perusahaan sponsor mengadakan pesta. Anda bisa masuk ke dalamnya jika Anda meyakinkan perekrut bahwa Anda tertarik dan berpotensi lulus wawancara. Jika Anda telah menerbitkan sebuah artikel (atau, terlebih lagi, mempresentasikannya), memulai atau sedang menyelesaikan gelar PhD, ini merupakan nilai tambah, tetapi terkadang Anda dapat bernegosiasi di stand dengan mengajukan pertanyaan menarik kepada para insinyur perusahaan.

Tren

Konferensi ini memungkinkan Anda untuk melihat seluruh bidang CV. Berdasarkan jumlah poster tentang topik tertentu, Anda dapat menilai seberapa hangat topik tersebut. Beberapa kesimpulan muncul berdasarkan kata kunci:

Tren dalam visi komputer. Sorotan ICCV 2019

Zero-shot, one-shot, some-shot, self-supervised, dan semi-supervised: pendekatan baru untuk tugas-tugas yang telah lama dipelajari

Orang-orang belajar menggunakan data dengan lebih efektif. Misalnya, di MENYENANGKAN dimungkinkan untuk menghasilkan ekspresi wajah hewan yang tidak ada dalam set pelatihan (dalam aplikasi, dengan memberikan beberapa gambar referensi). Ide Deep Image Prior telah dikembangkan, dan sekarang jaringan GAN dapat dilatih pada satu gambar - kita akan membicarakannya di bawah dalam sorotan. Anda dapat menggunakan pengawasan mandiri untuk pra-pelatihan (menyelesaikan masalah di mana Anda dapat mensintesis data yang selaras, seperti memprediksi sudut rotasi gambar) atau belajar secara bersamaan dari data berlabel dan tidak berlabel. Dalam pengertian ini, artikel dapat dianggap sebagai mahkota penciptaan S4L: Pembelajaran Semi-Supervisi yang Diawasi Sendiri. Dan inilah pra-pelatihan di ImageNet tidak selalu membantu.

Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019

3D dan 360Β°

Masalah yang sebagian besar diselesaikan untuk foto (segmentasi, deteksi) memerlukan penelitian tambahan untuk model 3D dan video panorama. Kami telah melihat banyak artikel tentang konversi RGB dan RGB-D ke 3D. Beberapa masalah, seperti estimasi pose manusia, dapat diselesaikan dengan lebih alami jika kita beralih ke model tiga dimensi. Namun belum ada konsensus tentang bagaimana tepatnya merepresentasikan model 3D - dalam bentuk mesh, point cloud, voxel, atau SDF. Inilah pilihan lainnya:

Tren dalam visi komputer. Sorotan ICCV 2019

Dalam panorama, konvolusi pada bola berkembang secara aktif (lihat. Segmentasi Semantik Sadar Orientasi pada Bola Icosahedron) dan cari objek utama dalam bingkai.

Tren dalam visi komputer. Sorotan ICCV 2019

Deteksi pose dan prediksi gerakan manusia

Telah ada kemajuan dalam deteksi pose dalam 2D ​​- kini fokusnya beralih ke bekerja dengan banyak kamera dan dalam 3D. Misalnya, Anda juga dapat mendeteksi kerangka melalui dinding dengan melacak perubahan sinyal Wi-Fi saat melewati tubuh manusia.

Banyak pekerjaan telah dilakukan di bidang deteksi titik tombol tangan. Kumpulan data baru telah muncul, termasuk yang berdasarkan video dialog antara dua orang - kini Anda dapat memprediksi gerakan tangan dari audio atau teks percakapan! Kemajuan yang sama telah dicapai dalam tugas pelacakan mata (estimasi tatapan).

Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019

Seseorang juga dapat mengidentifikasi sekelompok besar karya yang berkaitan dengan prediksi pergerakan manusia (misalnya, Prediksi Gerak Manusia melalui Spatio-Temporal Inpainting ΠΈΠ»ΠΈ Prediksi Terstruktur Membantu Pemodelan Gerak Manusia 3D). Tugas ini penting dan, berdasarkan percakapan dengan penulis, paling sering digunakan untuk menganalisis perilaku pejalan kaki dalam mengemudi otonom.

Manipulasi dengan orang-orang di foto dan video, kamar pas virtual

Tren utamanya adalah mengubah gambar wajah sesuai dengan parameter yang dapat ditafsirkan. Ide: deepfake berdasarkan satu gambar, mengubah ekspresi berdasarkan rendering wajah (BonekaGAN), feedforwardβ€”mengubah parameter (misalnya, озраста). Perpindahan gaya telah berpindah dari judul topik ke penerapan karya. Kamar pas virtual adalah cerita yang berbeda; mereka hampir selalu berfungsi buruk, Berikut ini adalah contoh demo.

Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019

Pembuatan dari sketsa/grafik

Perkembangan gagasan β€œBiarkan grid menghasilkan sesuatu berdasarkan pengalaman sebelumnya” menjadi ide lain: β€œMari kita tunjukkan pada grid opsi mana yang menarik minat kita.”

SC-FEGAN memungkinkan Anda melakukan inpaint terpandu: pengguna dapat menyelesaikan pengecatan bagian wajah di area gambar yang terhapus dan mendapatkan gambar yang dipulihkan tergantung pada penyelesaiannya.

Tren dalam visi komputer. Sorotan ICCV 2019

Salah satu dari 25 artikel Adobe untuk ICCV menggabungkan dua GAN: satu melengkapi sketsa untuk pengguna, yang lain menghasilkan gambar fotorealistik dari sketsa (halaman proyek).

Tren dalam visi komputer. Sorotan ICCV 2019

Dulunya grafik tidak diperlukan dalam pembuatan gambar, namun kini telah dijadikan wadah pengetahuan tentang pemandangan. Penghargaan Best Paper Honorable Mentions berdasarkan hasil ICCV juga diraih oleh artikel tersebut Menentukan Atribut dan Hubungan Objek dalam Pembuatan Adegan Interaktif. Secara umum, Anda dapat menggunakannya dengan berbagai cara: membuat grafik dari gambar, atau gambar dan teks dari grafik.

Tren dalam visi komputer. Sorotan ICCV 2019

Identifikasi ulang orang dan mobil, menghitung jumlah massa (!)

Banyak artikel dikhususkan untuk melacak orang dan mengidentifikasi ulang orang dan mesin. Namun yang mengejutkan kami adalah sekumpulan artikel tentang penghitungan massa, semuanya dari Tiongkok.

Poster Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019
Namun Facebook, sebaliknya, menganonimkan foto tersebut. Dan hal ini dilakukan dengan cara yang menarik: ia melatih jaringan saraf untuk menghasilkan wajah tanpa detail unik - serupa, tetapi tidak terlalu mirip sehingga dapat diidentifikasi dengan benar oleh sistem pengenalan wajah.

Tren dalam visi komputer. Sorotan ICCV 2019

Perlindungan terhadap serangan musuh

Dengan berkembangnya aplikasi visi komputer di dunia nyata (pada mobil tanpa pengemudi, dalam pengenalan wajah), pertanyaan tentang keandalan sistem tersebut semakin muncul. Untuk menggunakan CV sepenuhnya, Anda perlu memastikan bahwa sistem tahan terhadap serangan musuh - itulah sebabnya artikel tentang perlindungan terhadap serangan tersebut tidak kalah pentingnya dengan artikel tentang serangan itu sendiri. Ada banyak upaya untuk menjelaskan prediksi jaringan (peta arti-penting) dan mengukur keyakinan terhadap hasilnya.

Tugas gabungan

Dalam sebagian besar tugas dengan satu target, kemungkinan untuk meningkatkan kualitas hampir habis; salah satu arah baru untuk lebih meningkatkan kualitas adalah dengan mengajarkan jaringan saraf untuk memecahkan beberapa masalah serupa secara bersamaan. Contoh:
β€” prediksi tindakan + prediksi aliran optik,
β€” presentasi video + presentasi bahasa (VideoBERT),
- resolusi super + HDR.

Ada juga artikel tentang segmentasi, penentuan pose, dan identifikasi ulang hewan!

Tren dalam visi komputer. Sorotan ICCV 2019

Tren dalam visi komputer. Sorotan ICCV 2019

Highlight

Hampir semua artikel sudah diketahui sebelumnya, teksnya tersedia di arXiv.org. Oleh karena itu, penyajian karya-karya seperti Everyone Dance Now, FUNIT, Image2StyleGAN terkesan agak aneh - ini adalah karya yang sangat berguna, tetapi bukan hal baru. Tampaknya proses klasik publikasi ilmiah sedang terhenti di sini - sains bergerak terlalu cepat.

Sangat sulit untuk menentukan karya terbaik - ada banyak, subjeknya berbeda. Beberapa artikel diterima penghargaan dan sebutan.

Kami ingin menonjolkan karya-karya yang menarik dari sudut pandang manipulasi gambar, karena inilah topik kami. Ternyata bagi kami cukup segar dan menarik (kami tidak berpura-pura objektif).

SinGAN (penghargaan makalah terbaik) dan InGAN

SinGAN: halaman proyek, arXiv, kode.
DiGAN: halaman proyek, arXiv, kode.

Pengembangan Ide Deep Image Sebelumnya dari Dmitry Ulyanov, Andrea Vedaldi dan Victor Lempitsky. Alih-alih melatih GAN pada kumpulan data, jaringan belajar dari bagian gambar yang sama untuk mengingat statistik di dalamnya. Jaringan terlatih memungkinkan Anda mengedit dan menganimasikan foto (SingAN) atau menghasilkan gambar baru dengan ukuran berapa pun dari tekstur gambar asli, dengan mempertahankan struktur lokal (InGAN).

SinGAN:

Tren dalam visi komputer. Sorotan ICCV 2019

DiGAN:

Tren dalam visi komputer. Sorotan ICCV 2019

Melihat Apa yang Tidak Dapat Dihasilkan oleh GAN

halaman proyek.

Jaringan saraf yang menghasilkan gambar sering kali mengambil vektor gangguan acak sebagai masukan. Dalam jaringan terlatih, banyak vektor masukan membentuk ruang, gerakan kecil yang menyebabkan perubahan kecil pada gambar. Dengan menggunakan optimasi, Anda dapat menyelesaikan masalah kebalikannya: menemukan vektor masukan yang sesuai untuk gambar dari dunia nyata. Penulis menunjukkan bahwa hampir tidak mungkin menemukan gambar yang benar-benar cocok dalam jaringan saraf. Beberapa objek dalam gambar tidak dihasilkan (tampaknya karena besarnya variabilitas objek tersebut).

Tren dalam visi komputer. Sorotan ICCV 2019

Penulis berhipotesis bahwa GAN tidak menutupi seluruh ruang gambar, tetapi hanya sebagian bagian yang berlubang, seperti keju. Saat kami mencoba mencari foto dari dunia nyata di dalamnya, kami akan selalu gagal, karena GAN masih menghasilkan foto yang tidak sepenuhnya nyata. Perbedaan antara gambar nyata dan gambar yang dihasilkan hanya dapat diatasi dengan mengubah bobot jaringan, yaitu dengan melatihnya kembali untuk foto tertentu.

Tren dalam visi komputer. Sorotan ICCV 2019

Ketika jaringan juga dilatih untuk foto tertentu, Anda dapat mencoba berbagai manipulasi dengan gambar ini. Pada contoh di bawah, sebuah jendela ditambahkan ke foto, dan jaringan juga menghasilkan refleksi pada unit dapur. Artinya, jaringan, bahkan setelah pelatihan fotografi tambahan, tidak kehilangan kemampuan untuk melihat hubungan antar objek dalam pemandangan.

Tren dalam visi komputer. Sorotan ICCV 2019

GNalyze: Menuju Definisi Visual dari Properti Gambar Kognitif

halaman proyek, arXiv.

Dengan menggunakan pendekatan dari karya ini, Anda dapat memvisualisasikan dan menganalisis apa yang telah dipelajari jaringan saraf. Penulis mengusulkan untuk melatih GAN untuk membuat gambar yang jaringannya akan menghasilkan prediksi tertentu. Artikel tersebut menggunakan beberapa jaringan sebagai contoh, termasuk MemNet, yang memprediksi daya ingat foto. Ternyata agar lebih mudah diingat, objek dalam foto harus:

  • menjadi lebih dekat ke pusat
  • memiliki bentuk yang lebih bulat atau persegi dan struktur yang sederhana,
  • berada di latar belakang yang seragam,
  • mengandung mata yang ekspresif (setidaknya untuk foto anjing),
  • menjadi lebih cerah, lebih jenuh, dalam beberapa kasus, lebih merah.

Tren dalam visi komputer. Sorotan ICCV 2019

Liquid Warping GAN: Kerangka Terpadu untuk Meniru Gerakan Manusia, Transfer Penampilan, dan Sintesis Tampilan Novel

halaman proyek, arXiv, kode.

Pipeline untuk menghasilkan foto orang satu foto dalam satu waktu. Penulis menunjukkan contoh sukses dalam mentransfer pergerakan satu orang ke orang lain, mentransfer pakaian antar orang, dan menghasilkan sudut pandang baru dari seseorang - semuanya dari satu foto. Berbeda dengan karya sebelumnya, di sini kami tidak menggunakan titik-titik kunci dalam 2D ​​(pose), melainkan jaring 3D tubuh (pose + bentuk) untuk menciptakan kondisi. Penulis juga menemukan cara mentransfer informasi dari gambar asli ke gambar yang dihasilkan (Liquid Warping Block). Hasilnya terlihat lumayan, namun resolusi gambar yang dihasilkan hanya 256x256. Sebagai perbandingan, vid2vid yang muncul setahun lalu mampu menghasilkan resolusi 2048x1024, namun membutuhkan perekaman video sebanyak 10 menit sebagai dataset.

Tren dalam visi komputer. Sorotan ICCV 2019

FSGAN: Peragaan dan Peragaan Wajah Agnostik Subjek

halaman proyek, arXiv.

Pada awalnya sepertinya tidak ada yang aneh: deepfake dengan kualitas yang kurang lebih normal. Namun pencapaian utama dari karya ini adalah penggantian wajah dari satu gambar. Berbeda dengan karya-karya sebelumnya, pelatihan diperlukan pada banyak foto orang tertentu. Pipeline tersebut ternyata rumit (peragaan ulang dan segmentasi, interpolasi tampilan, inpainting, blending) dan dengan banyak peretasan teknis, tetapi hasilnya sepadan.

Tren dalam visi komputer. Sorotan ICCV 2019

Mendeteksi Hal Tak Terduga melalui Sintesis Ulang Gambar

arXiv.

Bagaimana drone dapat memahami bahwa suatu objek tiba-tiba muncul di depannya dan tidak termasuk dalam kelas segmentasi semantik apa pun? Ada beberapa metode, namun penulis mengusulkan algoritma intuitif baru yang bekerja lebih baik dari pendahulunya. Segmentasi semantik diprediksi dari citra jalan masukan. Itu dimasukkan sebagai masukan ke GAN (pix2pixHD), yang mencoba mengembalikan gambar asli hanya dari peta semantik. Anomali yang tidak termasuk dalam segmen mana pun akan berbeda secara signifikan pada keluaran dan gambar yang dihasilkan. Ketiga gambar (asli, segmentasi, dan rekonstruksi) kemudian dimasukkan ke dalam jaringan lain yang memprediksi anomali. Kumpulan data untuk ini dihasilkan dari kumpulan data Cityscapes yang terkenal, yang secara acak mengubah kelas pada segmentasi semantik. Menariknya, dalam setting ini, seekor anjing yang berdiri di tengah jalan, tetapi tersegmentasi dengan benar (yang berarti ada kelasnya), bukanlah suatu anomali, karena sistem dapat mengenalinya.

Tren dalam visi komputer. Sorotan ICCV 2019

Kesimpulan

Sebelum konferensi, penting untuk mengetahui minat ilmiah Anda, presentasi apa yang ingin Anda hadiri, dan dengan siapa harus diajak bicara. Maka segalanya akan menjadi jauh lebih produktif.

ICCV, yang pertama dan terpenting, adalah jaringan. Anda memahami bahwa ada institut dan departemen ilmiah terkemuka, Anda mulai memahami hal ini, mengenal orang-orang. Dan Anda dapat membaca artikel di arXiv - dan omong-omong, sangat keren karena Anda tidak perlu pergi ke mana pun untuk mendapatkan pengetahuan.

Selain itu, di konferensi tersebut Anda dapat mendalami topik-topik yang tidak dekat dengan Anda dan melihat tren. Nah, tulislah daftar artikel untuk dibaca. Jika Anda seorang pelajar, ini adalah kesempatan bagi Anda untuk bertemu dengan calon guru, jika Anda dari industri, maka dengan majikan baru, dan jika perusahaan, maka untuk menunjukkan diri Anda.

berlangganan @loss_function_porn! Ini adalah proyek pribadi: kami memimpinnya bersama karfly. Kami memposting semua karya yang kami sukai selama konferensi di sini: @loss_function_live.

Sumber: www.habr.com

Tambah komentar