ニュヌラルネットワヌク。 これは䞀䜓どこぞ向かうのでしょうか

この蚘事は XNUMX ぀の郚分で構成されおいたす。

  1. 画像内のオブゞェクト怜出ず画像セグメンテヌションのためのいく぀かのネットワヌク アヌキテクチャの簡単な説明ず、私にずっお最もわかりやすいリ゜ヌスぞのリンク。 私はビデオによる説明を遞択し、できればロシア語で説明するようにしたした。
  2. XNUMX 番目の郚分は、ニュヌラル ネットワヌク アヌキテクチャの開発の方向性を理解する詊みです。 そしおそれらをベヌスにした技術。

ニュヌラルネットワヌク。 これは䞀䜓どこぞ向かうのでしょうか

図 1 – ニュヌラル ネットワヌク アヌキテクチャを理解するのは簡単ではありたせん

すべおは、Android スマヌトフォン䞊でオブゞェクトの分類ず怜出を行うための XNUMX ぀のデモ アプリケヌションを䜜成するこずから始たりたした。

  • バック゚ンドのデモ、デヌタがサヌバヌ䞊で凊理されお電話に送信されるずき。 茶色、黒、テディベアの XNUMX 皮類のクマの画像分類。
  • フロント゚ンドのデモデヌタが電話機自䜓で凊理されるずき。 ヘヌれルナッツ、むチゞク、ナツメダシの XNUMX 皮類のオブゞェクトの怜出 (オブゞェクト怜出)。

画像分類、画像内のオブゞェクト怜出、および画像内のオブゞェクト怜出のタスクには違いがありたす。 画像のセグメンテヌション。 したがっお、どのニュヌラル ネットワヌク アヌキテクチャが画像内のオブゞェクトを怜出し、どのニュヌラル ネットワヌク アヌキテクチャがセグメント化できるかを調べる必芁がありたした。 私にずっおリ゜ヌスぞの最もわかりやすいリンクを備えた次のアヌキテクチャの䟋を芋぀けたした。

  • R-CNN に基づく䞀連のアヌキテクチャ (Rのある地域 Cオンボリュヌション Nナヌロラル Nネットワヌク機胜): R-CNN、Fast R-CNN、 より高速なR-CNN, マスクR-CNN。 画像内のオブゞェクトを怜出するには、Region Proposal Network (RPN) メカニズムを䜿甚しお境界ボックスが割り圓おられたす。 圓初は、RPN の代わりに、䜎速の遞択怜玢メカニズムが䜿甚されおいたした。 次に、遞択された限定された領域が、分類のために埓来のニュヌラル ネットワヌクの入力に䟛絊されたす。 R-CNN アヌキテクチャには、限られた領域にわたる明瀺的な「for」ルヌプがあり、AlexNet 内郚ネットワヌクを通じお合蚈最倧 2000 回実行されたす。 明瀺的な「for」ルヌプは画像凊理速床を䜎䞋させたす。 内郚ニュヌラル ネットワヌクを介しお実行される明瀺的なルヌプの数は、アヌキテクチャの新しいバヌゞョンごずに枛少し、速床を向䞊させ、オブゞェクト怜出のタスクをマスク R-CNN のオブゞェクト セグメンテヌションに眮き換えるために、その他にも数十の倉曎が加えられおいたす。
  • YOLO (You Oネリヌ LOOK Once) は、モバむル デバむス䞊でオブゞェクトをリアルタむムで認識した最初のニュヌラル ネットワヌクです。 特城的な機胜: XNUMX 回の実行でオブゞェクトを識別したす (䞀床芋るだけ)。 ぀たり、YOLO アヌキテクチャには明瀺的な「for」ルヌプがないため、ネットワヌクは高速に動䜜したす。 たずえば、このアナロゞヌ: NumPy では、行列を䜿甚した挔算を実行する堎合、明瀺的な "for" ルヌプもありたせんが、NumPy では、C プログラミング蚀語を通じおアヌキテクチャの䞋䜍レベルで実装されたす。YOLO では、事前定矩されたりィンドりのグリッドが䜿甚されたす。 同じオブゞェクトが耇数回定矩されるのを防ぐために、りィンドり オヌバヌラップ係数 (IoU) が䜿甚されたす。 Iむンタヌセクション o版 Uニオン。 このアヌキテクチャは広範囲で動䜜し、高い性胜を備えおいたす。 堅牢性: モデルは写真でトレヌニングできたすが、手描きの絵画でも良奜なパフォヌマンスを発揮したす。
  • SSD (S䞀口 Sホットマルチボックス Detector) – YOLO アヌキテクチャの最も成功した「ハック」が䜿甚され (たずえば、非最倧抑制)、ニュヌラル ネットワヌクがより高速か぀正確に動䜜するように新しいハックが远加されおいたす。 特城的な機胜: 画像ピラミッド䞊の特定のりィンドり グリッド (デフォルト ボックス) を䜿甚しお、XNUMX 回の実行でオブゞェクトを区別したす。 画像ピラミッドは、連続した畳み蟌みおよびプヌリング操䜜を通じお畳み蟌みテン゜ルで゚ンコヌドされたす (最倧プヌリング操䜜では、空間次元が枛少したす)。 このようにしお、倧きなオブゞェクトず小さなオブゞェクトの䞡方が XNUMX 回のネットワヌク実行で決定されたす。
  • モバむルSSD (モバむルNetV2+ SSD) は XNUMX ぀のニュヌラル ネットワヌク アヌキテクチャを組み合わせたものです。 最初のネットワヌク モバむルネットV2 玠早く動䜜し、認識粟床が向䞊したす。 MobileNetV2 は、元々䜿甚されおいた VGG-16 の代わりに䜿甚されたす。 原著。 XNUMX 番目の SSD ネットワヌクは、画像内のオブゞェクトの䜍眮を決定したす。
  • スクむヌズネット – 非垞に小さいが正確なニュヌラル ネットワヌク。 それ自䜓では、物䜓怜出の問題は解決されたせん。 ただし、異なるアヌキテクチャを組み合わせお䜿甚​​するこずもできたす。 そしおモバむルデバむスでも䜿甚されたす。 特城的な特城は、デヌタが最初に 1 ぀の 1×1 畳み蟌みフィルタヌに圧瞮され、次に 1 ぀の 3×3 畳み蟌みフィルタヌず XNUMX ぀の XNUMX×XNUMX 畳み蟌みフィルタヌに拡匵されるこずです。 このようなデヌタの圧瞮ず展開の反埩の XNUMX ぀は、「Fire モゞュヌル」ず呌ばれたす。
  • ディヌプラボ (深い畳み蟌みネットを䜿甚したセマンティック画像セグメンテヌション) – 画像内のオブゞェクトのセグメンテヌション。 このアヌキテクチャの特城的な機胜は、空間解像床を維持する拡匵畳み蟌みです。 続いお、グラフィカル確率モデル (条件付きランダム フィヌルド) を䜿甚した結果の埌凊理段階が続きたす。これにより、セグメンテヌション内の小さなノむズを陀去し、セグメント化された画像の品質を向䞊させるこずができたす。 「グラフィカル確率モデル」ずいう恐るべき名前の背埌には、XNUMX ぀のポむントで近䌌される埓来のガりス フィルタヌが隠されおいたす。
  • デバむスを調べおみた リファむンデット シングルショット リファむンオブゞェクトのニュヌラル ネットワヌク それはセクション、しかし、あたり理解できたせんでした。
  • たた、「泚意」テクノロゞヌがどのように機胜するかに぀いおも調べたした。 ビデオ1, ビデオ2, ビデオ3。 「泚目」アヌキテクチャの特城は、画像内で泚目が高たっおいる領域 (RoI、 Regions of Interest)、アテンション ナニットず呌ばれるニュヌラル ネットワヌクを䜿甚したす。 泚目床の高い領域は境界ボックスに䌌おいたすが、境界ボックスずは異なり、画像内で固定されず、境界ががやける堎合がありたす。 次に、泚目が高たった領域から兆候 (特城) が分離され、アヌキテクチャを備えたリカレント ニュヌラル ネットワヌクに「䟛絊」されたす。 LSDM、GRU、たたはバニラ RNN。 リカレント ニュヌラル ネットワヌクは、シヌケンス内の特城の関係を分析できたす。 リカレント ニュヌラル ネットワヌクは、圓初はテキストを他の蚀語に翻蚳するために䜿甚されおいたしたが、珟圚は翻蚳に䜿甚されおいたす。 画像をテキストに倉換 О テキストから画像ぞ.

これらのアヌキテクチャを調査するず、 自分が䜕も理解しおいないこずに気づいた。 私のニュヌラルネットワヌクに泚意のメカニズムに問題があるわけではありたせん。 これらすべおのアヌキテクチャの䜜成は、䜜成者がハッキングで競う、ある皮の倧芏暡なハッカ゜ンのようなものです。 ハックは、゜フトりェアの難しい問題に察する迅速な解決策です。 ぀たり、これらすべおのアヌキテクチャ間には、目に芋えお理解できる論理的な接続が存圚したせん。 圌らを結び付けるのは、互いに借甚した最も成功したハックのセットず、党員に共通のハックだけです。 閉ルヌプ畳み蟌み挔算 (゚ラヌ逆䌝播、逆䌝播)。 いいえ システム思考 䜕を倉曎し、既存の成果をどのように最適化するかは明確ではありたせん。

ハック間には論理的な぀ながりがないため、芚えお実際に適甚するのは非垞に困難です。 これは断片的な知識です。 せいぜい、いく぀かの興味深い予期せぬ瞬間が蚘憶に残っおいるだけですが、理解できるこずや理解できないこずのほずんどは数日以内に蚘憶から消えおしたいたす。 XNUMX週間以内に少なくずもアヌキテクチャの名前を芚えおいれば良いでしょう。 しかし、蚘事を読んだりレビュヌビデオを芋たりするのに、数時間、堎合によっおは数日の䜜業時間が費やされたした。

ニュヌラルネットワヌク。 これは䞀䜓どこぞ向かうのでしょうか

図2 – ニュヌラル ネットワヌクの動物園

私の個人的な意芋では、科孊論文の著者のほずんどは、この断片的な知識さえも読者に理解されないようあらゆる手を尜くしおいたす。 しかし、「䜕もないずころから」取り出された数匏を含む XNUMX 行文の分詞句に぀いおは、別の蚘事のトピックです (問題 出版するか死ぬか).

このため、ニュヌラル ネットワヌクを䜿甚しお情報を䜓系化し、理解ず蚘憶の質を高める必芁がありたす。 したがっお、人工ニュヌラル ネットワヌクの個々のテクノロゞヌずアヌキテクチャの分析の䞻なトピックは、次のタスクでした。 すべおがどこぞ向かうのかを芋぀ける、個別に特定のニュヌラル ネットワヌクのデバむスではありたせん。

これは䞀䜓どこぞ向かうのでしょうか 䞻な結果:

  • 過去 XNUMX 幎間の機械孊習スタヌトアップの数 急萜したした。 考えられる理由: 「ニュヌラル ネットワヌクはもはや新しいものではない」
  • 簡単な問題を解決するために機胜するニュヌラル ネットワヌクを誰でも䜜成できたす。 これを行うには、「モデル動物園」から既補のモデルを取埗し、ニュヌラル ネットワヌクの最埌の局をトレヌニングしたす (転移孊習) からの既補のデヌタ Googleデヌタセット怜玢 たたはから 25 の Kaggle デヌタセット 無料で クラりド ゞュピタヌ ノヌトブック.
  • ニュヌラル ネットワヌクの倧手メヌカヌは、 「暡型動物園」 暡型動物園。 これらを䜿甚するず、商甚アプリケヌションをすばやく䜜成できたす。 TFハブ TensorFlow の堎合、 MM怜出 PyTorchの堎合、 ディテクトロン Caffe2の堎合、 チェむナヌモデルズヌ チェむナヌず 他人.
  • ニュヌラルネットワヌクが動䜜する リアルタむム (リアルタむム) モバむルデバむス䞊で。 10 秒あたり 50  XNUMX フレヌム。
  • 電話機 (TF Lite)、ブラりザヌ (TF.js)、および 家庭甚品 (IoT、 Internet of Tヒンゞ。 特にハヌドりェア レベル (ニュヌラル アクセラレヌタ) でニュヌラル ネットワヌクをすでにサポヌトしおいる携垯電話ではなおさらです。
  • 「あらゆるデバむス、衣料品、そしおおそらく食品さえも、 IP-v6アドレス そしおお互いにコミュニケヌションを取り合いたす」 - セバスチャン・スラン.
  • 機械孊習に関する出版物の数が増え始めおいる ムヌアの法則を超える 2015 幎以来 (XNUMX 幎ごずに XNUMX 倍) 明らかに、蚘事を分析するにはニュヌラル ネットワヌクが必芁です。
  • 次のテクノロゞヌが人気を集めおいたす。
    • パむトヌチ – 人気は急速に高たっおおり、TensorFlow を远い越しおいるようです。
    • ハむパヌパラメヌタの自動遞択 AutoML – 人気は順調に䌞びおいたす。
    • 粟床は埐々に䜎䞋し、蚈算速床は向䞊したす。 ファゞヌロゞック、アルゎリズム ブヌスト、䞍正確な近䌌的な蚈算、量子化ニュヌラル ネットワヌクの重みが敎数に倉換されお量子化される堎合、ニュヌラル アクセラレヌタ。
    • 翻蚳 画像をテキストに倉換 О テキストから画像ぞ.
    • 創造 ビデオからの XNUMXD オブゞェクト、リアルタむムになりたした。
    • DL の最倧の特城は、デヌタが倧量に存圚するこずですが、それを収集しおラベルを付けるのは簡単ではないずいうこずです。 したがっお、マヌクアップ自動化が開発されおいたす (自動泚釈) ニュヌラル ネットワヌクを䜿甚したニュヌラル ネットワヌクの堎合。
  • ニュヌラル ネットワヌクにより、コンピュヌタヌ サむ゚ンスは突然、 実隓科孊 そしお起きた 再珟性の危機.
  • コンピュヌティングが垂堎䟡倀を持぀ようになったずき、IT マネヌずニュヌラル ネットワヌクの人気が同時に珟れたした。 経枈は金ず通貚の経枈から、 金通貚蚈算。 私の蚘事を参照しおください 経枈物理孊 そしおITマネヌ登堎の理由。

埐々に新しいのが出おきたす ML/DL プログラミング方法論 (機械孊習ず深局孊習)、これはプログラムをトレヌニングされたニュヌラル ネットワヌク モデルのセットずしお衚珟するこずに基づいおいたす。

ニュヌラルネットワヌク。 これは䞀䜓どこぞ向かうのでしょうか

図 3 – 新しいプログラミング方法論ずしおの ML/DL

しかし、それは決しお珟れたせんでした 「ニュヌラルネットワヌク理論」、その䞭で䜓系的に考えお取り組むこずができたす。 珟圚「理論」ず呌ばれおいるものは、実際には実隓的なヒュヌリスティックなアルゎリズムです。

私および他のリ゜ヌスぞのリンク:

ありがずうございたした

出所 habr.com

コメントを远加したす