Rezo neral. Ki kote tout bagay sa yo prale?

Atik la konsiste de de pati:

  1. Yon deskripsyon tou kout sou kèk achitekti rezo pou deteksyon objè nan imaj ak segmentasyon imaj ak lyen ki pi konprann nan resous pou mwen. Mwen te eseye chwazi eksplikasyon videyo ak de preferans nan Ris.
  2. Dezyèm pati a se yon tantativ pou konprann direksyon devlopman nan achitekti rezo neral. Ak teknoloji ki baze sou yo.

Rezo neral. Ki kote tout bagay sa yo prale?

Figi 1 - Konprann achitekti rezo neral se pa fasil

Tout bagay te kòmanse pa fè de aplikasyon demonstrasyon pou klasifikasyon objè ak deteksyon sou yon telefòn android:

  • Back-end Demo, lè done yo trete sou sèvè a ak transmèt nan telefòn nan. Imaj klasifikasyon twa kalite lous: mawon, nwa ak Teddy.
  • Front-end Demolè done yo trete sou telefòn nan tèt li. Deteksyon objè (deteksyon objè) nan twa kalite: nwazèt, fig frans ak dat.

Gen yon diferans ant travay yo nan klasifikasyon imaj, deteksyon objè nan yon imaj ak segmantasyon imaj. Se poutèt sa, te gen yon bezwen chèche konnen ki achitekti rezo neral detekte objè nan imaj ak ki moun ki ka segman. Mwen te jwenn egzanp sa yo nan achitekti ak lyen ki pi konprann nan resous pou mwen:

  • Yon seri achitekti ki baze sou R-CNN (Rrejyon ki gen Convolisyon Neral Nkarakteristik etworks): R-CNN, Fast R-CNN, Pi vit R-CNN, Mask R-CNN. Pou detekte yon objè nan yon imaj, yo bay bwat delimitasyon lè l sèvi avèk mekanis Rezo Pwopozisyon Rejyon (RPN). Okòmansman, yo te itilize mekanis rechèch selektif ki pi dousman olye pou yo RPN. Lè sa a, chwazi rejyon yo limite yo manje nan opinyon nan yon rezo neral konvansyonèl pou klasifikasyon. Achitekti R-CNN a gen bouk klè "pou" sou rejyon limite, totalize jiska 2000 kouri atravè rezo entèn AlexNet la. Bouk "pou" eksplisit ralanti vitès pwosesis imaj. Kantite bouk eksplisit kap kouri atravè rezo neral entèn la diminye ak chak nouvo vèsyon achitekti a, epi plizyè douzèn lòt chanjman yo fèt pou ogmante vitès ak ranplase travay deteksyon objè ak segmentasyon objè nan Mask R-CNN.
  • YOLO (You Only Ltou Once) se premye rezo neral ki rekonèt objè an tan reyèl sou aparèy mobil. Karakteristik distenktif: distenge objè nan yon sèl kouri (jis gade yon fwa). Sa vle di, nan achitekti YOLO pa gen okenn bouk "pou" eksplisit, ki se poukisa rezo a ap travay byen vit. Pou egzanp, analoji sa a: nan NumPy, lè w ap fè operasyon ak matris, pa gen okenn bouk "for" eksplisit, ki nan NumPy yo aplike nan nivo pi ba nan achitekti a atravè langaj pwogramasyon C. YOLO sèvi ak yon griy nan fenèt predefini. Pou anpeche menm objè a defini plizyè fwa, yo itilize koyefisyan sipèpoze fenèt (IoU). Ientèseksyon oUnion). Achitekti sa a opere nan yon pakèt domèn e li gen segondè solidite: Yon modèl ka resevwa fòmasyon sou foto men li toujou fè byen sou penti ki trase men yo.
  • SSD (Sanboulèt Scho MultiBox Detector) - yo itilize "antay" ki gen plis siksè nan achitekti YOLO (pa egzanp, repwesyon ki pa maksimòm) ak nouvo yo ajoute pou fè rezo neral la travay pi vit ak plis presizyon. Karakteristik distenktif: distenge objè nan yon sèl kouri lè l sèvi avèk yon griy bay nan fenèt (bwat default) sou piramid la imaj. Piramid imaj la kode nan tensè konvolusyon atravè operasyon siksesif konvolusyon ak pisin (ak operasyon max-pooling la, dimansyon espasyal la diminye). Nan fason sa a, tou de gwo ak ti objè yo detèmine nan yon sèl kouri rezo.
  • MobileSSD (mobilNetV2+ SSD) se yon konbinezon de achitekti rezo neral. Premye rezo MobileNetV2 travay byen vit epi ogmante presizyon rekonesans. MobileNetV2 yo itilize olye de VGG-16, ki te orijinal itilize nan atik orijinal la. Dezyèm rezo SSD la detèmine kote objè yo nan imaj la.
  • SqueezeNet - yon rezo neral piti anpil men egzat. Pou kont li, li pa rezoud pwoblèm nan nan deteksyon objè. Sepandan, li ka itilize nan yon konbinezon de achitekti diferan. Epi yo itilize nan aparèy mobil. Karakteristik nan diferan se ke done yo premye konprese nan kat 1 × 1 filtè konvolusyon ak Lè sa a, elaji nan kat 1 × 1 ak kat 3 × 3 filtè konvolusyon. Yon iterasyon sa yo nan konpresyon-ekspansyon done yo rele yon "Modil dife".
  • DeepLab (Semantik Imaj Segmantasyon ak Deep Convolutional Nets) - segmantasyon nan objè nan imaj la. Yon karakteristik diferan nan achitekti a se konvolusyon dilate, ki prezève rezolisyon espasyal. Sa a se ki te swiv pa yon etap apre-pwosesis nan rezilta yo lè l sèvi avèk yon modèl pwobabilite grafik (kondisyonèl jaden o aza), ki pèmèt ou retire ti bri nan segmentasyon an ak amelyore kalite imaj la segmented. Dèyè non formidab "modèl pwobabilite grafik" kache yon filtè konvansyonèl Gaussian, ki apwoksimatif pa senk pwen.
  • Eseye konnen aparèy la RefineDet (Sèl piki RafineRezo neral pou objè Naneksyon), men mwen pa t konprann anpil bagay.
  • Mwen te gade tou ki jan teknoloji "atansyon" la ap travay: videyo 1, videyo 2, videyo 3. Yon karakteristik diferan nan achitekti "atansyon" la se seleksyon otomatik nan rejyon ki ogmante atansyon nan imaj la (RoI, Regions of Interest) lè l sèvi avèk yon rezo neral ki rele Inite atansyon. Rejyon ki gen plis atansyon yo sanble ak bwat delimitasyon, men kontrèman ak yo, yo pa fiks nan imaj la epi yo ka gen limit twoub. Lè sa a, soti nan rejyon plis atansyon, siy (karakteristik) yo izole, ki "manje" nan rezo neral frekan ak achitekti. LSDM, GRU oswa vaniy RNN. Rezo neral frekan yo kapab analize relasyon karakteristik yo nan yon sekans. Rezo neral frekan yo te itilize okòmansman pou tradui tèks nan lòt lang, epi kounye a pou tradiksyon imaj nan tèks и tèks nan imaj.

Pandan n ap eksplore achitekti sa yo Mwen reyalize ke mwen pa konprann anyen. Epi li pa ke rezo neral mwen an gen pwoblèm ak mekanis nan atansyon. Kreyasyon tout achitekti sa yo se tankou yon kalite gwo hackathon, kote otè konpetisyon nan antay. Hack se yon solisyon rapid nan yon pwoblèm lojisyèl difisil. Sa vle di, pa gen okenn koneksyon lojik vizib ak konprann ant tout achitekti sa yo. Tout sa ki ini yo se yon seri antay ki gen plis siksè ke yo prete youn nan men lòt, plis yon sèl komen pou tout moun. operasyon konvolusyon bouk fèmen (erè backpropagation, backpropagation). Non sistèm panse! Li pa klè kisa pou chanje ak kijan pou optimize reyalizasyon ki egziste deja yo.

Kòm yon rezilta nan mank de koneksyon lojik ant antay, yo trè difisil sonje ak aplike nan pratik. Sa a se konesans fragmenté. Nan pi bon, yon kèk moman enteresan ak inatandi yo vin chonje, men pi fò nan sa ki konprann ak enkonpreyansib disparèt nan memwa nan kèk jou. Li pral bon si nan yon semèn ou sonje omwen non an nan achitekti a. Men, plizyè èdtan e menm jou nan tan travay yo te pase li atik ak gade videyo revizyon!

Rezo neral. Ki kote tout bagay sa yo prale?

Figi 2 - Zou nan rezo neral

Pifò otè nan atik syantifik, nan opinyon pèsonèl mwen, fè tout sa ki posib pou asire ke menm konesans sa a fragmenté pa konprann pa lektè a. Men, fraz patisipal nan fraz dis liy ak fòmil ke yo pran "soti nan lè mens" se yon sijè pou yon atik separe (pwoblèm pibliye oswa peri).

Pou rezon sa a, gen yon bezwen sistematize enfòmasyon lè l sèvi avèk rezo neral epi, kidonk, ogmante bon jan kalite a nan konpreyansyon ak memorizasyon. Se poutèt sa, sijè prensipal analiz teknoloji endividyèl ak achitekti rezo neral atifisyèl yo te travay sa a: chèche konnen ki kote tout bagay prale, epi yo pa aparèy la nan nenpòt rezo neral espesifik separeman.

Kote tout bagay sa yo prale? Rezilta prensipal yo:

  • Kantite demaraj aprantisaj machin nan de dènye ane yo tonbe sevè. Rezon ki posib: "rezo neral yo pa yon bagay nouvo ankò."
  • Nenpòt moun ka kreye yon rezo neral k ap travay pou rezoud yon pwoblèm ki senp. Pou fè sa, pran yon modèl pare ki soti nan "modèl zou" epi antrene dènye kouch rezo neral la (transfere aprantisaj) sou done pare soti nan Google Dataset Search oswa nan 25 mil done Kaggle nan gratis nwaj Jupyter Kaye.
  • Gwo manifaktirè rezo neral yo te kòmanse kreye "zoo modèl" (modèl zou). Sèvi ak yo ou ka byen vit kreye yon aplikasyon komèsyal: TF Hub pou TensorFlow, MMDeksyon pou PyTorch, Detectron pou Caffe2, chainer-modelzoo pou Chainer ak lòt moun.
  • Rezo neral k ap travay nan tan reyèl (an tan reyèl) sou aparèy mobil. Soti nan 10 a 50 ankadreman pou chak segonn.
  • Itilizasyon rezo neral nan telefòn (TF Lite), nan navigatè (TF.js) ak nan atik nan kay la (IoT, Ientènèt of Tgon). Espesyalman nan telefòn ki deja sipòte rezo neral nan nivo pyès ki nan konpitè (akseleratè neral).
  • "Chak aparèy, atik rad, e petèt menm manje ap genyen adrès IP-v6 epi kominike youn ak lòt" - Sou entènèt jwèt Sebastian Thrun.
  • Kantite piblikasyon sou aprantisaj machin yo te kòmanse grandi depase lwa Moore (double chak dezan) depi 2015. Li evidan, nou bezwen rezo neral pou analize atik yo.
  • Teknoloji sa yo ap pran popilarite:
    • PyTorch - popilarite ap grandi rapidman e li sanble ap depase TensorFlow.
    • Seleksyon otomatik nan hyperparameters AutoML - popilarite ap grandi san pwoblèm.
    • Diminisyon gradyèl nan presizyon ak ogmantasyon nan vitès kalkil: lojik flou, algoritm ranfòse, kalkil egzak (apwoksimatif), quantization (lè pwa rezo neral la konvèti an nonm antye ak quantized), akseleratè neral.
    • Tradiksyon imaj nan tèks и tèks nan imaj.
    • kreyasyon Objè XNUMXD nan videyo, kounye a nan tan reyèl.
    • Bagay pwensipal lan sou DL se ke gen yon anpil nan done, men kolekte ak etikèt li se pa fasil. Se poutèt sa, automatisation maketing ap devlope (anotasyon otomatik) pou rezo neral lè l sèvi avèk rezo neral.
  • Avèk rezo neral, Syans enfòmatik toudenkou te vin syans eksperimantal epi leve kriz repwodibilite.
  • IT lajan ak popilarite rezo neral parèt ansanm lè informatique te vin tounen yon valè sou mache. Ekonomi an ap chanje soti nan yon ekonomi lò ak lajan lò-lajan-enfòmatik. Gade atik mwen an sou ekonofizik ak rezon ki fè yo parèt nan IT lajan.

Piti piti yon nouvo parèt Metodoloji pwogramasyon ML/DL (Machine Learning & Deep Learning), ki baze sou reprezante pwogram nan kòm yon seri modèl rezo neral ki resevwa fòmasyon.

Rezo neral. Ki kote tout bagay sa yo prale?

Figi 3 - ML/DL kòm yon nouvo metodoloji pwogramasyon

Sepandan, li pa janm parèt "teyori rezo neral", nan ki ou ka panse ak travay sistematik. Ki sa yo rele kounye a "teyori" se aktyèlman eksperimantal, algoritm euristik.

Lyen pou mwen ak lòt resous:

Mèsi pou atansyon ou!

Sous: www.habr.com

Add nouvo kòmantè