神經網路。 這一切要去哪裡?

文章由兩部分組成:

  1. 簡要描述一些用於圖像中的物件檢測和圖像分割的網路架構,以及對我來說最容易理解的資源連結。 我嘗試選擇影片解釋,最好是俄語。
  2. 第二部分是嘗試了解神經網路架構的發展方向。 以及基於它們的技術。

神經網路。 這一切要去哪裡?

圖 1 – 要理解神經網路架構並不容易

這一切都是從在 Android 手機上製作兩個用於物件分類和檢測的演示應用程式開始的:

  • 後端演示,當資料在伺服器上處理並傳輸到手機時。 三種熊的圖像分類:棕色、黑色和泰迪熊。
  • 前端演示當資料在手機本身上處理時。 三種類型的物體檢測(物體檢測):榛果、無花果和棗子。

影像分類、影像中的目標偵測和影像分類任務之間存在差異 影像分割。 因此,需要找出哪些神經網路架構可以偵測影像中的物件以及哪些可以進行分割。 我找到了以下架構範例,其中包含對我來說最容易理解的資源連結:

  • 一系列基於R-CNN的架構(R地區有 C卷積 N歐洲的 Networks 功能):R-CNN、Fast R-CNN、 更快的R-CNN, 面具R-CNN。 為了偵測影像中的對象,使用區域提議網路(RPN)機制分配邊界框。 最初,使用較慢的選擇性搜尋機制取代 RPN。 然後將選定的有限區域饋送到傳統神經網路的輸入以進行分類。 R-CNN 架構在有限區域內有明確的「for」循環,AlexNet 內部網路總共運行多達 2000 次。 顯式的“for”迴圈會降低影像處理速度。 隨著架構的每個新版本的出現,透過內部神經網路運行的顯式循環數量都會減少,並且還進行了數十項其他更改以提高速度並用 Mask R-CNN 中的物件分割代替物件檢測任務。
  • YOLO (You ONLY LOnce)是第一個在行動裝置上即時辨識物體的神經網路。 顯著特徵:一次就能區分物體(只需看一次)。 也就是說,在 YOLO 架構中,沒有明確的「for」循環,這就是網路運作速度很快的原因。 例如,在NumPy 中,當使用矩陣進行運算時,也沒有明確的「for」循環,而在NumPy 中,循環是透過C 程式語言在架構的較低層級實現的。YOLO 使用預先定義視窗的網格。 為了防止同一物件被多次定義,使用了視窗重疊係數(IoU)。 I路口 oU信聯盟)。 此架構運作範圍廣,具有較高的 穩健性:模型可以在照片上進行訓練,但在手繪上仍然表現良好。
  • SSD (S英格爾 S熱門多功能盒 Detector)—使用了 YOLO 架構中最成功的「駭客」(例如,非極大值抑制),並添加了新的「駭客」以使神經網路工作得更快、更準確。 獨特的功能:使用圖像金字塔上給定的視窗網格(預設框)在一次運行中區分物件。 透過連續的捲積和池化操作將影像金字塔編碼為卷積張量(透過最大池化操作,空間維度減小)。 這樣,在一次網路運作中即可確定大物件和小物件。
  • 行動SSD(電話網路V2+ SSD)是兩種神經網路架構的組合。 第一網絡 移動網絡V2 工作速度快並提高辨識準確性。 使用MobileNetV2代替VGG-16,VGG-XNUMX最初用於 來源文章。 第二個 SSD 網路決定影像中物件的位置。
  • 擠壓網 – 一個非常小但準確的神經網路。 它本身並不能解決物件檢測的問題。 然而,它可以用於不同架構的組合。 並用於行動裝置。 其顯著特徵是資料首先被壓縮為四個 1×1 卷積濾波器,然後擴展為四個 1×1 和四個 3×3 卷積濾波器。 一種這樣的資料壓縮-擴展迭代稱為“Fire Module”。
  • 深度實驗室 (使用深度卷積網路的語意影像分割)-影像中物件的分割。 這個架構的一個顯著特徵是擴張卷積,它保留了空間解析度。 接下來是使用圖形機率模型(條件隨機場)對結果進行後處理階段,這允許您消除分割中的小雜訊並提高分割影像的品質。 「圖形機率模型」這個令人敬畏的名字背後隱藏著一個傳統的高斯濾波器,它由五個點近似。
  • 試圖找出該設備 精煉檢測 (單發 篩選物件神經網路 [活塞]節),但我不太明白。
  • 我還研究了「注意力」技術的工作原理: 影片1, 影片2, 影片3。 「注意力」架構的一個顯著特徵是自動選擇影像中增加註意力的區域(RoI、 R埃及 of Ininterest)使用稱為注意力單元的神經網路。 關注度增加的區域與邊界框類似,但與它們不同的是,它們在圖像中並不固定,並且邊界可能模糊。 然後,從關注度增加的區域中分離出符號(特徵),並將其「饋送到」具有架構的循環神經網絡 LSDM、GRU 或 Vanilla RNN。 循環神經網路能夠分析序列中特徵的關係。 循環神經網路最初用於將文字翻譯成其他語言,現在用於翻譯 圖片轉文字 и 文字到圖像.

當我們探索這些架構時 我發現我什麼都不懂。 這並不是說我的神經網路的注意力機制有問題。 所有這些架構的創建就像某種大型黑客馬拉松,作者們在其中進行黑客競賽。 Hack 是解決軟體難題的快速方法。 也就是說,所有這些架構之間不存在可見且可理解的邏輯連結。 將他們團結在一起的是一套他們互相借鑒的最成功的技巧,加上一個所有人都通用的技巧 閉環卷積運算 (誤差反向傳播,反向傳播)。 不 系統思維! 目前尚不清楚要改變什麼以及如何優化現有成果。

由於駭客之間缺乏邏輯聯繫,它們在實踐中極難記憶和應用。 這是碎片化的知識。 最多只能記住一些有趣和意想不到的時刻,但大多數理解和難以理解的內容會在幾天之內從記憶中消失。 如果一周內您至少能記住該架構的名稱,那就太好了。 但幾個小時甚至幾天的工作時間都花在了看文章、看評論影片上!

神經網路。 這一切要去哪裡?

圖 2 – 神經網路動物園

在我個人看來,大多數科學文章的作者都會盡一切可能確保即使是這些零碎的知識也不會被讀者理解。 但是,十行句子中的分詞片語以及「憑空」得出的公式是另一篇文章的主題(問題 出版或滅亡).

因此,需要使用神經網路將資訊系統化,從而提高理解和記憶的品質。 因此,分析人工神經網路的各個技術和架構的主要主題是以下任務: 找出一切的去向,而不是單獨的任何特定神經網路的設備。

這一切要去哪裡? 主要結果:

  • 近兩年機器學習新創公司數量 大幅下跌。 可能的原因:“神經網路不再是新鮮事。”
  • 任何人都可以創建一個有效的神經網路來解決簡單的問題。 為此,請從「模型動物園」中取得現成的模型並訓練神經網路的最後一層(轉移學習)對現成的數據 谷歌數據集搜索 或來自 25 個 Kaggle 資料集 在免費的 雲端 Jupyter 筆記本.
  • 神經網路的大型製造商開始創建 “模型動物園” (模型動物園)。 使用它們您可以快速創建商業應用程式: TF 集線器 對於張量流, MM檢測 對於 PyTorch, 偵探 對於咖啡2, chainer-modelzoo 對於鏈納和 他人.
  • 神經網路工作在 即時的 (即時)在行動裝置上。 每秒 10 到 50 格。
  • 神經網路在手機 (TF Lite)、瀏覽器 (TF.js) 和 家居用品 (物聯網、 I網際網路 of T鉸鏈)。 特別是在已經在硬體層級支援神經網路(神經加速器)的手機中。
  • 「每件設備、衣服,甚至食物都會有 IP-v6 位址 並互相溝通”- 賽巴斯蒂安·特龍.
  • 有關機器學習的出版數量開始增長 超越摩爾定律 (每兩年翻一番)自 2015 年以來。 顯然,我們需要神經網路來分析文章。
  • 以下技術越來越受歡迎:
    • 火炬 – 受歡迎程度正在迅速增長,似乎正在超越 TensorFlow。
    • 自動選擇超參數 AutoML – 人氣正在順利成長。
    • 精度逐漸降低,計算速度提高: 模糊邏輯, 演算法 提升、不精確(近似)計算、量化(當神經網路的權重轉換為整數並量化時)、神經加速器。
    • 筆譯 圖片轉文字 и 文字到圖像.
    • 創建 影片中的 XNUMXD 對象,現在是即時的。
    • 深度學習的主要特點是資料很多,但收集和標記資料並不容易。 因此,標記自動化正在發展(自動註釋)對於使用神經網路的神經網路。
  • 有了神經網絡,電腦科學突然變得 實驗科學 並出現 再現性危機.
  • 當運算成為一種市場價值時,IT 貨幣和神經網路的普及同時出現。 經濟正從黃金和貨幣經濟轉變為 黃金貨幣計算。 請參閱我的文章 經濟物理學 以及IT錢出現的原因。

漸漸地,新的出現了 ML/DL 程式設計方法 (機器學習和深度學習),它基於將程式表示為一組經過訓練的神經網路模型。

神經網路。 這一切要去哪裡?

圖 3 – ML/DL 作為一種新的程式設計方法

然而卻從未出現過 《神經網路理論》,在其中你可以有系統地思考和工作。 現在所謂的「理論」其實是實驗性的啟發式演算法。

我的資源和其他資源的連結:

謝謝你的關注!

來源: www.habr.com

添加評論