Jaringan saraf dalam visi komputer berkembang secara aktif, banyak masalah yang masih belum terselesaikan. Untuk menjadi tren di bidang Anda, cukup ikuti influencer di Twitter dan baca artikel relevan di arXiv.org. Namun kami berkesempatan untuk menghadiri International Conference on Computer Vision (ICCV) 2019. Tahun ini diadakan di Korea Selatan. Sekarang kami ingin berbagi dengan pembaca Habr apa yang kami lihat dan pelajari.
Ada banyak dari kami di sana dari Yandex: pengembang mobil self-driving, peneliti, dan mereka yang menangani tugas CV di bidang jasa datang. Namun sekarang kami ingin menyajikan sudut pandang yang sedikit subjektif dari tim kami - Machine Intelligence Laboratory (Yandex MILAB). Orang lain mungkin melihat konferensi itu dari sudut pandang mereka sendiri.
Apa yang dilakukan laboratorium?Kami melakukan proyek eksperimental yang berkaitan dengan pembuatan gambar dan musik untuk tujuan hiburan. Kami terutama tertarik pada jaringan saraf yang memungkinkan Anda mengubah konten dari pengguna (untuk foto, tugas ini disebut manipulasi gambar).
Ada banyak konferensi ilmiah, namun yang paling menonjol adalah konferensi A*, yang biasanya menerbitkan artikel tentang teknologi paling menarik dan penting. Tidak ada daftar pasti konferensi A*, berikut adalah daftar perkiraan dan tidak lengkap: NeurIPS (sebelumnya NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Tiga yang terakhir mengkhususkan diri pada topik CV.
Sekilas tentang ICCV: poster, tutorial, lokakarya, stand
Konferensi ini menerima 1075 makalah, peserta 7500 orang, berasal dari Rusia 103 orang, ada artikel dari karyawan Yandex, Skoltech, Samsung AI Center Moscow dan Samara University. Tahun ini tidak banyak peneliti papan atas yang mengunjungi ICCV, tapi misalnya Alexei (Alyosha) Efros yang selalu menarik perhatian banyak orang:
statistika
Di semua konferensi tersebut, artikel disajikan dalam bentuk poster (
Berikut beberapa karya dari Rusia
Dengan tutorial, Anda dapat mendalami bidang studi tertentu; ini mengingatkan pada perkuliahan di universitas. Dibaca oleh satu orang, biasanya tanpa membicarakan karya tertentu. Contoh tutorial yang keren (
Sebaliknya, di lokakarya, mereka membicarakan artikel. Biasanya berupa karya dengan topik yang sempit, cerita dari kepala laboratorium tentang semua karya mahasiswa terkini, atau artikel yang tidak diterima pada konferensi utama.
Perusahaan sponsor datang ke ICCV dengan membawa stand. Tahun ini, Google, Facebook, Amazon dan banyak perusahaan internasional lainnya datang, serta sejumlah besar startup β Korea dan Cina. Ada banyak sekali startup yang berspesialisasi dalam penandaan data. Ada pertunjukan di stand, Anda dapat mengambil merchandise dan mengajukan pertanyaan. Untuk tujuan berburu, perusahaan sponsor mengadakan pesta. Anda bisa masuk ke dalamnya jika Anda meyakinkan perekrut bahwa Anda tertarik dan berpotensi lulus wawancara. Jika Anda telah menerbitkan sebuah artikel (atau, terlebih lagi, mempresentasikannya), memulai atau sedang menyelesaikan gelar PhD, ini merupakan nilai tambah, tetapi terkadang Anda dapat bernegosiasi di stand dengan mengajukan pertanyaan menarik kepada para insinyur perusahaan.
Tren
Konferensi ini memungkinkan Anda untuk melihat seluruh bidang CV. Berdasarkan jumlah poster tentang topik tertentu, Anda dapat menilai seberapa hangat topik tersebut. Beberapa kesimpulan muncul berdasarkan kata kunci:
Zero-shot, one-shot, some-shot, self-supervised, dan semi-supervised: pendekatan baru untuk tugas-tugas yang telah lama dipelajari
Orang-orang belajar menggunakan data dengan lebih efektif. Misalnya, di
3D dan 360Β°
Masalah yang sebagian besar diselesaikan untuk foto (segmentasi, deteksi) memerlukan penelitian tambahan untuk model 3D dan video panorama. Kami telah melihat banyak artikel tentang konversi RGB dan RGB-D ke 3D. Beberapa masalah, seperti estimasi pose manusia, dapat diselesaikan dengan lebih alami jika kita beralih ke model tiga dimensi. Namun belum ada konsensus tentang bagaimana tepatnya merepresentasikan model 3D - dalam bentuk mesh, point cloud, voxel, atau SDF. Inilah pilihan lainnya:
Dalam panorama, konvolusi pada bola berkembang secara aktif (lihat.
Deteksi pose dan prediksi gerakan manusia
Telah ada kemajuan dalam deteksi pose dalam 2D ββ- kini fokusnya beralih ke bekerja dengan banyak kamera dan dalam 3D. Misalnya, Anda juga dapat mendeteksi kerangka melalui dinding dengan melacak perubahan sinyal Wi-Fi saat melewati tubuh manusia.
Banyak pekerjaan telah dilakukan di bidang deteksi titik tombol tangan. Kumpulan data baru telah muncul, termasuk yang berdasarkan video dialog antara dua orang - kini Anda dapat memprediksi gerakan tangan dari audio atau teks percakapan! Kemajuan yang sama telah dicapai dalam tugas pelacakan mata (estimasi tatapan).
Seseorang juga dapat mengidentifikasi sekelompok besar karya yang berkaitan dengan prediksi pergerakan manusia (misalnya,
Manipulasi dengan orang-orang di foto dan video, kamar pas virtual
Tren utamanya adalah mengubah gambar wajah sesuai dengan parameter yang dapat ditafsirkan. Ide: deepfake berdasarkan satu gambar, mengubah ekspresi berdasarkan rendering wajah (
Pembuatan dari sketsa/grafik
Perkembangan gagasan βBiarkan grid menghasilkan sesuatu berdasarkan pengalaman sebelumnyaβ menjadi ide lain: βMari kita tunjukkan pada grid opsi mana yang menarik minat kita.β
Salah satu dari 25 artikel Adobe untuk ICCV menggabungkan dua GAN: satu melengkapi sketsa untuk pengguna, yang lain menghasilkan gambar fotorealistik dari sketsa (
Dulunya grafik tidak diperlukan dalam pembuatan gambar, namun kini telah dijadikan wadah pengetahuan tentang pemandangan. Penghargaan Best Paper Honorable Mentions berdasarkan hasil ICCV juga diraih oleh artikel tersebut
Identifikasi ulang orang dan mobil, menghitung jumlah massa (!)
Banyak artikel dikhususkan untuk melacak orang dan mengidentifikasi ulang orang dan mesin. Namun yang mengejutkan kami adalah sekumpulan artikel tentang penghitungan massa, semuanya dari Tiongkok.
Poster
Namun Facebook, sebaliknya, menganonimkan foto tersebut. Dan hal ini dilakukan dengan cara yang menarik: ia melatih jaringan saraf untuk menghasilkan wajah tanpa detail unik - serupa, tetapi tidak terlalu mirip sehingga dapat diidentifikasi dengan benar oleh sistem pengenalan wajah.
Perlindungan terhadap serangan musuh
Dengan berkembangnya aplikasi visi komputer di dunia nyata (pada mobil tanpa pengemudi, dalam pengenalan wajah), pertanyaan tentang keandalan sistem tersebut semakin muncul. Untuk menggunakan CV sepenuhnya, Anda perlu memastikan bahwa sistem tahan terhadap serangan musuh - itulah sebabnya artikel tentang perlindungan terhadap serangan tersebut tidak kalah pentingnya dengan artikel tentang serangan itu sendiri. Ada banyak upaya untuk menjelaskan prediksi jaringan (peta arti-penting) dan mengukur keyakinan terhadap hasilnya.
Tugas gabungan
Dalam sebagian besar tugas dengan satu target, kemungkinan untuk meningkatkan kualitas hampir habis; salah satu arah baru untuk lebih meningkatkan kualitas adalah dengan mengajarkan jaringan saraf untuk memecahkan beberapa masalah serupa secara bersamaan. Contoh:
β prediksi tindakan + prediksi aliran optik,
β presentasi video + presentasi bahasa (
-
Ada juga artikel tentang segmentasi, penentuan pose, dan identifikasi ulang hewan!
Highlight
Hampir semua artikel sudah diketahui sebelumnya, teksnya tersedia di arXiv.org. Oleh karena itu, penyajian karya-karya seperti Everyone Dance Now, FUNIT, Image2StyleGAN terkesan agak aneh - ini adalah karya yang sangat berguna, tetapi bukan hal baru. Tampaknya proses klasik publikasi ilmiah sedang terhenti di sini - sains bergerak terlalu cepat.
Sangat sulit untuk menentukan karya terbaik - ada banyak, subjeknya berbeda. Beberapa artikel diterima
Kami ingin menonjolkan karya-karya yang menarik dari sudut pandang manipulasi gambar, karena inilah topik kami. Ternyata bagi kami cukup segar dan menarik (kami tidak berpura-pura objektif).
SinGAN (penghargaan makalah terbaik) dan InGAN
SinGAN:
DiGAN:
Pengembangan Ide Deep Image Sebelumnya dari Dmitry Ulyanov, Andrea Vedaldi dan Victor Lempitsky. Alih-alih melatih GAN pada kumpulan data, jaringan belajar dari bagian gambar yang sama untuk mengingat statistik di dalamnya. Jaringan terlatih memungkinkan Anda mengedit dan menganimasikan foto (SingAN) atau menghasilkan gambar baru dengan ukuran berapa pun dari tekstur gambar asli, dengan mempertahankan struktur lokal (InGAN).
SinGAN:
DiGAN:
Melihat Apa yang Tidak Dapat Dihasilkan oleh GAN
Jaringan saraf yang menghasilkan gambar sering kali mengambil vektor gangguan acak sebagai masukan. Dalam jaringan terlatih, banyak vektor masukan membentuk ruang, gerakan kecil yang menyebabkan perubahan kecil pada gambar. Dengan menggunakan optimasi, Anda dapat menyelesaikan masalah kebalikannya: menemukan vektor masukan yang sesuai untuk gambar dari dunia nyata. Penulis menunjukkan bahwa hampir tidak mungkin menemukan gambar yang benar-benar cocok dalam jaringan saraf. Beberapa objek dalam gambar tidak dihasilkan (tampaknya karena besarnya variabilitas objek tersebut).
Penulis berhipotesis bahwa GAN tidak menutupi seluruh ruang gambar, tetapi hanya sebagian bagian yang berlubang, seperti keju. Saat kami mencoba mencari foto dari dunia nyata di dalamnya, kami akan selalu gagal, karena GAN masih menghasilkan foto yang tidak sepenuhnya nyata. Perbedaan antara gambar nyata dan gambar yang dihasilkan hanya dapat diatasi dengan mengubah bobot jaringan, yaitu dengan melatihnya kembali untuk foto tertentu.
Ketika jaringan juga dilatih untuk foto tertentu, Anda dapat mencoba berbagai manipulasi dengan gambar ini. Pada contoh di bawah, sebuah jendela ditambahkan ke foto, dan jaringan juga menghasilkan refleksi pada unit dapur. Artinya, jaringan, bahkan setelah pelatihan fotografi tambahan, tidak kehilangan kemampuan untuk melihat hubungan antar objek dalam pemandangan.
GNalyze: Menuju Definisi Visual dari Properti Gambar Kognitif
Dengan menggunakan pendekatan dari karya ini, Anda dapat memvisualisasikan dan menganalisis apa yang telah dipelajari jaringan saraf. Penulis mengusulkan untuk melatih GAN untuk membuat gambar yang jaringannya akan menghasilkan prediksi tertentu. Artikel tersebut menggunakan beberapa jaringan sebagai contoh, termasuk MemNet, yang memprediksi daya ingat foto. Ternyata agar lebih mudah diingat, objek dalam foto harus:
- menjadi lebih dekat ke pusat
- memiliki bentuk yang lebih bulat atau persegi dan struktur yang sederhana,
- berada di latar belakang yang seragam,
- mengandung mata yang ekspresif (setidaknya untuk foto anjing),
- menjadi lebih cerah, lebih jenuh, dalam beberapa kasus, lebih merah.
Liquid Warping GAN: Kerangka Terpadu untuk Meniru Gerakan Manusia, Transfer Penampilan, dan Sintesis Tampilan Novel
Pipeline untuk menghasilkan foto orang satu foto dalam satu waktu. Penulis menunjukkan contoh sukses dalam mentransfer pergerakan satu orang ke orang lain, mentransfer pakaian antar orang, dan menghasilkan sudut pandang baru dari seseorang - semuanya dari satu foto. Berbeda dengan karya sebelumnya, di sini kami tidak menggunakan titik-titik kunci dalam 2D ββ(pose), melainkan jaring 3D tubuh (pose + bentuk) untuk menciptakan kondisi. Penulis juga menemukan cara mentransfer informasi dari gambar asli ke gambar yang dihasilkan (Liquid Warping Block). Hasilnya terlihat lumayan, namun resolusi gambar yang dihasilkan hanya 256x256. Sebagai perbandingan, vid2vid yang muncul setahun lalu mampu menghasilkan resolusi 2048x1024, namun membutuhkan perekaman video sebanyak 10 menit sebagai dataset.
FSGAN: Peragaan dan Peragaan Wajah Agnostik Subjek
Pada awalnya sepertinya tidak ada yang aneh: deepfake dengan kualitas yang kurang lebih normal. Namun pencapaian utama dari karya ini adalah penggantian wajah dari satu gambar. Berbeda dengan karya-karya sebelumnya, pelatihan diperlukan pada banyak foto orang tertentu. Pipeline tersebut ternyata rumit (peragaan ulang dan segmentasi, interpolasi tampilan, inpainting, blending) dan dengan banyak peretasan teknis, tetapi hasilnya sepadan.
Mendeteksi Hal Tak Terduga melalui Sintesis Ulang Gambar
Bagaimana drone dapat memahami bahwa suatu objek tiba-tiba muncul di depannya dan tidak termasuk dalam kelas segmentasi semantik apa pun? Ada beberapa metode, namun penulis mengusulkan algoritma intuitif baru yang bekerja lebih baik dari pendahulunya. Segmentasi semantik diprediksi dari citra jalan masukan. Itu dimasukkan sebagai masukan ke GAN (pix2pixHD), yang mencoba mengembalikan gambar asli hanya dari peta semantik. Anomali yang tidak termasuk dalam segmen mana pun akan berbeda secara signifikan pada keluaran dan gambar yang dihasilkan. Ketiga gambar (asli, segmentasi, dan rekonstruksi) kemudian dimasukkan ke dalam jaringan lain yang memprediksi anomali. Kumpulan data untuk ini dihasilkan dari kumpulan data Cityscapes yang terkenal, yang secara acak mengubah kelas pada segmentasi semantik. Menariknya, dalam setting ini, seekor anjing yang berdiri di tengah jalan, tetapi tersegmentasi dengan benar (yang berarti ada kelasnya), bukanlah suatu anomali, karena sistem dapat mengenalinya.
Kesimpulan
Sebelum konferensi, penting untuk mengetahui minat ilmiah Anda, presentasi apa yang ingin Anda hadiri, dan dengan siapa harus diajak bicara. Maka segalanya akan menjadi jauh lebih produktif.
ICCV, yang pertama dan terpenting, adalah jaringan. Anda memahami bahwa ada institut dan departemen ilmiah terkemuka, Anda mulai memahami hal ini, mengenal orang-orang. Dan Anda dapat membaca artikel di arXiv - dan omong-omong, sangat keren karena Anda tidak perlu pergi ke mana pun untuk mendapatkan pengetahuan.
Selain itu, di konferensi tersebut Anda dapat mendalami topik-topik yang tidak dekat dengan Anda dan melihat tren. Nah, tulislah daftar artikel untuk dibaca. Jika Anda seorang pelajar, ini adalah kesempatan bagi Anda untuk bertemu dengan calon guru, jika Anda dari industri, maka dengan majikan baru, dan jika perusahaan, maka untuk menunjukkan diri Anda.
berlangganan
Sumber: www.habr.com