電腦視覺領域的神經網路正在積極發展,許多問題還遠未解決。 要跟上您所在領域的趨勢,只需關注 Twitter 上的影響者並閱讀 arXiv.org 上的相關文章。 但我們有機會去參加2019年國際電腦視覺會議(ICCV)。今年它在韓國舉行。 現在我們想與哈布爾讀者分享我們的所見所聞。
我們中有很多來自 Yandex 的人:自動駕駛汽車的開發人員、研究人員以及在服務中處理 CV 任務的人員。 但現在我們想展示我們團隊——機器智慧實驗室(Yandex MILAB)的一個稍微主觀的觀點。 其他人可能從自己的角度看待這次會議。
實驗室是做什麼的?我們進行與娛樂目的生成圖像和音樂相關的實驗項目。 我們對允許更改使用者內容的神經網路特別感興趣(對於照片,此任務稱為影像處理)。
科學會議有很多,但最頂尖的會議最為突出,即所謂的 A* 會議,通常會發表有關最有趣和最重要技術的文章。 沒有 A* 會議的確切列表,這裡有一個近似且不完整的列表:NeurIPS(以前稱為 NIPS)、ICML、SIGIR、WWW、WSDM、KDD、ACL、CVPR、ICCV、ECCV。 最後三個專門討論履歷主題。
ICCV 概覽:海報、教學、研討會、攤位
會議收到論文1075篇,參加人數7500人,來自俄羅斯的103人,有來自Yandex、Skoltech、莫斯科三星AI中心和薩馬拉大學員工的文章。 今年,來ICCV參觀的頂尖研究人員並不多,但例如Alexey (Alyosha) Efros,他總是吸引了很多人:
統計
在所有此類會議上,文章均以海報的形式呈現(
以下是一些來自俄羅斯的作品
透過教程,您可以深入研究特定的主題領域;這讓人想起大學的講座。 它由一個人閱讀,通常不談論特定作品。 一個很酷的教程的例子(
相反,在研討會上,他們談論文章。 通常這些是一些狹窄主題的作品,實驗室負責人關於學生所有最新工作的故事,或者沒有被主會議接受的文章。
贊助公司帶著攤位來到ICCV。 今年,Google、Facebook、亞馬遜和許多其他國際公司都來了,還有大量新創公司——韓國和中國。 尤其是有很多專門從事數據標記的新創公司。 看台上有表演,可以拿東西,也可以提問。 為了狩獵的目的,贊助公司舉辦聚會。 如果您讓招聘人員相信您感興趣並且有可能通過面試,您就可以進入其中。 如果你已經發表了一篇文章(或者,此外,介紹了它),開始或即將完成博士學位,這是一個優勢,但有時你可以透過向公司的工程師提出有趣的問題來在展位上進行談判。
趨勢
這次會議讓您可以一覽整個履歷領域。 透過特定主題的發文數量,您可以評估主題的熱門程度。 根據關鍵字得出一些結論:
零樣本、單樣本、少樣本、自我監督和半監督:長期研究任務的新方法
人們正在學習更有效地使用數據。 例如,在
3D 和 360°
主要針對照片解決的問題(分割、檢測)需要對 3D 模型和全景影片進行額外的研究。 我們已經看過很多關於將 RGB 和 RGB-D 轉換為 3D 的文章。 有些問題,例如人體姿勢估計,可以透過轉向 3D 模型來更自然地解決。 但對於如何準確地表示 XNUMXD 模型(以網格、點雲、體素或 SDF 的形式)尚未達成共識。 這是另一個選擇:
在全景圖中,球體上的捲積正在積極發展(參見。
姿勢檢測與人體運動預測
2D 姿勢偵測已經取得了進展 - 現在焦點已轉向使用多個攝影機和 3D。 例如,您也可以透過追蹤 Wi-Fi 訊號穿過人體時的變化來偵測穿牆的骨骼。
在手部關鍵點檢測領域已經做了很多工作。 新的資料集已經出現,包括基於兩個人之間對話視訊的資料集 - 現在您可以從對話的音訊或文字中預測手勢! 眼球追蹤任務(注視估計)也取得了同樣的進展。
人們還可以識別一大群與人體運動預測相關的作品(例如,
對照片和影片、虛擬試衣間中的人物進行操作
主要趨勢是根據可解釋的參數改變臉部影像。 想法:基於一張圖片進行deepfake,基於臉部渲染改變表情(
從草圖/圖表生成
“讓網格根據以前的經驗生成一些東西”的想法的發展變成了另一個:“讓我們向網格展示我們感興趣的選項。”
ICCV 的 25 篇 Adobe 文章中的一篇結合了兩種 GAN:一篇為用戶完成草圖,另一篇根據草圖生成逼真的圖像(
以前,圖像生成中不需要圖形,但現在它們已成為有關場景的知識的容器。 基於ICCV結果的最佳論文Honorable Mentions獎也由該文章獲得
重新辨識人和汽車,計算人群規模(!)
許多文章致力於追蹤人員以及重新識別人員和機器。 但讓我們驚訝的是一堆關於人群統計的文章,全部來自中國。
海報
但 Facebook 卻恰恰相反,將這張照片匿名化。 它以一種有趣的方式做到這一點:它訓練神經網路生成一張沒有獨特細節的臉部——相似,但又不那麼相似,以至於可以被臉部辨識系統正確識別。
防範對抗性攻擊
隨著電腦視覺應用在現實世界中(自動駕駛汽車、臉部辨識)的發展,此類系統的可靠性問題日益凸顯。 要充分利用 CV,您需要確保系統能夠抵抗對抗性攻擊 - 這就是為什麼關於防禦對抗性攻擊的文章並不比關於攻擊本身的文章少。 在解釋網路預測(顯著性圖)和測量結果的置信度方面已經做了很多工作。
組合任務
在大多數只有一個目標的任務中,提高品質的可能性實際上已經耗盡;進一步提高品質的新方向之一是教會神經網路同時解決幾個類似的問題。 例子:
— 動作預測+光流預測,
— 影片示範+語言簡報(
-
還有關於分割、姿勢確定和動物重新識別的文章!
強調
幾乎所有文章都是事先已知的,文本可以在 arXiv.org 上找到。 因此,《Everybody Dance Now》、《FUNIT》、《Image2StyleGAN》等作品的呈現顯得相當奇怪——這些都是非常有用的作品,但並不新鮮。 科學出版物的經典流程似乎正在崩潰——科學發展得太快了。
確定最好的作品是非常困難的——作品有很多,主題也各不相同。 收到幾篇文章
我們想突出顯示從圖像處理的角度來看有趣的作品,因為這是我們的主題。 事實證明,它們對我們來說非常新鮮和有趣(我們並不假裝客觀)。
SinGAN(最佳論文獎)和InGAN
辛甘:
因甘:
深度影像的發展 先前的想法來自 Dmitry Ulyanov、Andrea Vedaldi 和 Victor Lempitsky。 網路不是在資料集上訓練 GAN,而是從同一圖片的片段中學習,以記住其中的統計數據。 經過訓練的網路可讓您編輯照片並製作動畫 (SinGAN) 或從原始圖像的紋理生成任意大小的新圖像,同時保留局部結構 (InGAN)。
辛甘:
因甘:
看到GAN無法生成的內容
產生影像的神經網路通常採用隨機雜訊向量作為輸入。 在經過訓練的網路中,許多輸入向量形成一個空間,沿著該空間的微小運動會導致影像發生微小變化。 使用最佳化,您可以解決逆問題:為現實世界中的圖片找到合適的輸入向量。 作者表明,在神經網路中幾乎不可能找到完全匹配的圖片。 圖片中的一些物體沒有生成(顯然是因為這些物體的可變性很大)。
作者假設 GAN 並沒有覆蓋整個圖像空間,而只是覆蓋了一些充滿洞的子集,就像起司一樣。 當我們試圖在其中找到來自現實世界的照片時,我們總是會失敗,因為 GAN 仍然會產生不完全真實的照片。 真實圖片和生成圖片之間的差異只能透過改變網路的權重來克服,即針對特定照片重新訓練網路。
當網路針對特定照片進行額外訓練時,您可以嘗試對此影像進行各種操作。 在下面的範例中,照片中添加了一個窗口,並且網路另外在廚房設備上產生了反射。 這意味著即使經過額外的攝影訓練,網路也不會失去看到場景中物體之間聯繫的能力。
GANalyze:認知影像屬性的視覺定義
使用這項工作中的方法,您可以視覺化並分析神經網路學到的內容。 作者建議訓練 GAN 來創建圖片,網路將為其產生指定的預測。 文章使用了多個網路作為範例,其中包括預測照片記憶力的 MemNet。 事實證明,為了更好地記憶,照片中的物體應該:
- 更靠近中心
- 形狀較圓形或方形且結構簡單,
- 處於統一的背景上,
- 包含富有表現力的眼睛(至少對於狗照片而言),
- 更亮、更飽和,在某些情況下更紅。
Liquid Warping GAN:人體運動模仿、外觀遷移和新穎視圖合成的統一框架
用於一次產生一張人物照片的管道。 作者展示了將一個人的動作轉移到另一個人、在人與人之間轉移衣服以及產生一個人的新角度的成功例子——所有這些都來自一張照片。 與之前的作品不同,這裡我們不是使用 2D 中的關鍵點(姿勢),而是使用身體的 3D 網格(姿勢 + 形狀)來創建條件。 作者也弄清楚如何將資訊從原始影像傳輸到產生的影像(液體變形區塊)。 結果看起來不錯,但生成的圖像的分辨率僅為 256x256。 相比之下,一年前出現的vid2vid能夠產生2048x1024的分辨率,但它需要多達10分鐘的視訊錄製作為資料集。
FSGAN:主題不可知的臉部交換與重演
乍看之下似乎沒有什麼不尋常的:一個或多或少正常品質的深度偽造品。 但這項工作的主要成就是替換一張圖片中的臉。 與以前的作品不同,需要對特定人物的許多照片進行訓練。 事實證明,管道很麻煩(重演和分割、視圖插值、修復、混合)並且需要大量技術技巧,但結果是值得的。
透過影像重新合成檢測意外情況
無人機如何理解突然出現在它面前的一個不屬於任何語義分割類別的物體? 方法有多種,但作者提出了一種新的、直覺的演算法,它比以前的演算法效果更好。 語意分割是根據輸入道路影像預測的。 它作為 GAN (pix2pixHD) 的輸入,嘗試僅從語義圖中恢復原始影像。 不屬於任何分段的異常在輸出和產生的影像中將顯著不同。 然後將三個影像(原始影像、分割影像和重建影像)輸入到另一個預測異常的網路中。 該資料集是從著名的 Cityscapes 資料集產生的,並隨機更改語義分割上的類別。 有趣的是,在這種情況下,一隻狗站在路中間,但被正確分割(這意味著它有一個類別),這並不是異常,因為系統能夠識別它。
結論
在會議之前,了解您的科學興趣是什麼、您想參加哪些演講以及與誰交談非常重要。 那麼一切都會變得更有生產力。
ICCV 首先是網路。 你知道有頂尖的研究所和頂尖的科學部門,你開始了解這一點,開始了解人們。 你可以閱讀 arXiv 上的文章 - 順便說一句,你不必去任何地方就能獲取知識,這非常酷。
此外,在會議上您可以深入探討與您不熟悉的話題並了解趨勢。 好吧,寫下要閱讀的文章清單。 如果您是學生,這是您結識潛在老師的機會;如果您來自行業,那麼這是一個新雇主的機會;如果是公司,那麼這是展示自己的機會。
訂閱
來源: www.habr.com