Netwerks newrali. Fejn sejjer dan kollu?

L-artikolu jikkonsisti f'żewġ partijiet:

  1. Deskrizzjoni qasira ta 'xi arkitetturi tan-netwerk għall-iskoperta ta' oġġetti fl-immaġini u s-segmentazzjoni tal-immaġni bl-aktar links li jinftiehmu għar-riżorsi għalija. Ippruvajt nagħżel spjegazzjonijiet tal-vidjo u preferibbilment bir-Russu.
  2. It-tieni parti hija tentattiv biex tifhem id-direzzjoni tal-iżvilupp tal-arkitetturi tan-netwerk newrali. U teknoloġiji bbażati fuqhom.

Netwerks newrali. Fejn sejjer dan kollu?

Figura 1 – Il-fehim tal-arkitetturi tan-netwerk newrali mhuwiex faċli

Kollox beda billi għamel żewġ applikazzjonijiet demo għall-klassifikazzjoni u l-iskoperta tal-oġġetti fuq telefon Android:

  • Demo back-end, meta d-data tiġi pproċessata fuq is-server u trażmessa lit-telefon. Klassifikazzjoni tal-immaġni ta 'tliet tipi ta' orsijiet: kannella, iswed u teddy.
  • Demo front-endmeta d-data tiġi pproċessata fuq it-telefon innifsu. Sejbien ta 'oġġetti (skoperta ta' oġġetti) ta 'tliet tipi: ġellewż, tin u dati.

Hemm differenza bejn il-kompiti tal-klassifikazzjoni tal-immaġni, is-sejbien tal-oġġett f'immaġni u segmentazzjoni tal-immaġini. Għalhekk, kien hemm bżonn li ssir taf liema arkitetturi tan-netwerk newrali jiskopru oġġetti fl-immaġini u liema jistgħu jissegmentaw. Sibt l-eżempji li ġejjin ta 'arkitetturi bl-aktar links li jinftiehmu għar-riżorsi għalija:

  • Serje ta' arkitetturi bbażati fuq R-CNN (Rreġjuni ma Convoluzzjoni Newrali NKaratteristiċi tal-etworks): R-CNN, Fast R-CNN, R-CNN aktar mgħaġġel, Maskra R-CNN. Biex tiskopri oġġett f'immaġini, il-kaxxi tal-konfini huma allokati bl-użu tal-mekkaniżmu tan-Netwerk tal-Proposta tar-Reġjun (RPN). Inizjalment, intuża l-mekkaniżmu tat-Tiftix Selettiv aktar bil-mod minflok RPN. Imbagħad ir-reġjuni limitati magħżula jiġu mitmugħa għall-input ta 'netwerk newrali konvenzjonali għall-klassifikazzjoni. L-arkitettura R-CNN għandha linji espliċiti "għal" fuq reġjuni limitati, li jammontaw għal 2000 ġirja permezz tan-netwerk intern AlexNet. Loops espliċiti "għal" inaqqsu l-veloċità tal-ipproċessar tal-immaġni. In-numru ta 'linji espliċiti li jgħaddu min-netwerk newrali intern jonqos b'kull verżjoni ġdida tal-arkitettura, u għexieren ta' bidliet oħra jsiru biex tiżdied il-veloċità u biex jissostitwixxu l-kompitu ta 'skoperta ta' oġġetti b'segmentazzjoni ta 'oġġett fil-Maskra R-CNN.
  • YOLO (You Only Look Once) huwa l-ewwel netwerk newrali li rrikonoxxa oġġetti f'ħin reali fuq apparat mobbli. Karatteristika distintiva: tiddistingwi oġġetti f'ġirja waħda (ħares biss darba). Jiġifieri, fl-arkitettura YOLO m'hemm l-ebda loops "għal" espliċiti, u huwa għalhekk li n-netwerk jaħdem malajr. Pereżempju, din l-analoġija: f'NumPy, meta twettaq operazzjonijiet b'matriċi, m'hemm l-ebda loops espliċiti "għal", li f'NumPy huma implimentati f'livelli aktar baxxi tal-arkitettura permezz tal-lingwa ta 'programmar C. YOLO juża grilja ta' twieqi predefiniti. Biex jiġi evitat li l-istess oġġett jiġi definit diversi drabi, jintuża l-koeffiċjent ta' sovrapożizzjoni tat-twieqi (IoU). Iintersezzjoni over Union). Din l-arkitettura topera fuq firxa wiesgħa u għandha għolja robustezza: Mudell jista’ jiġi mħarreġ fuq ritratti iżda xorta jagħmel tajjeb fuq pitturi miġbuda bl-idejn.
  • SSD (Single SMultiBox sħun Detector) - jintużaw l-aktar "hacks" ta 'suċċess tal-arkitettura YOLO (per eżempju, soppressjoni mhux massima) u oħrajn ġodda huma miżjuda biex in-netwerk newrali jaħdem aktar malajr u b'mod aktar preċiż. Karatteristika distintiva: tiddistingwi oġġetti f'ġirja waħda bl-użu ta 'grilja partikolari ta' twieqi (kaxxa default) fuq il-piramida tal-immaġni. Il-piramida tal-immaġini hija kodifikata f'tensors tal-konvoluzzjoni permezz ta 'operazzjonijiet suċċessivi ta' konvoluzzjoni u ġbir (bl-operazzjoni max-pooling, id-dimensjoni spazjali tonqos). B'dan il-mod, kemm oġġetti kbar kif ukoll żgħar huma determinati f'ġirja waħda tan-netwerk.
  • MobileSSD (mobbliNetV2+ SSD) hija taħlita ta' żewġ arkitetturi tan-netwerk newrali. L-ewwel netwerk MobileNetV2 jaħdem malajr u jżid il-preċiżjoni tar-rikonoxximent. MobileNetV2 jintuża minflok VGG-16, li oriġinarjament intuża fi artikolu oriġinali. It-tieni netwerk SSD jiddetermina l-post tal-oġġetti fl-immaġni.
  • SqueezeNet – netwerk newrali żgħir ħafna iżda preċiż. Minnha nnifisha, ma ssolvix il-problema tas-sejbien tal-oġġett. Madankollu, jista 'jintuża f'kombinazzjoni ta' arkitetturi differenti. U użat f'apparat mobbli. Il-karatteristika distintiva hija li d-dejta l-ewwel tiġi kkompressata f'erba 'filtri konvoluzzjonali 1 × 1 u mbagħad estiża f'erba' filtri konvoluzzjonali 1 × 1 u erba '3 × 3. Iterazzjoni waħda bħal din ta 'espansjoni tal-kompressjoni tad-dejta tissejjaħ "Modulu tan-Nar".
  • DeepLab (Semantic Image Segmentation with Deep Convolutional Nets) - segmentazzjoni ta 'oġġetti fl-immaġni. Karatteristika distintiva tal-arkitettura hija l-konvoluzzjoni dilatata, li tippreserva r-riżoluzzjoni spazjali. Dan huwa segwit minn stadju ta 'wara l-ipproċessar tar-riżultati bl-użu ta' mudell probabilistiku grafiku (kamp każwali kondizzjonali), li jippermettilek tneħħi l-istorbju żgħir fis-segmentazzjoni u ttejjeb il-kwalità tal-immaġni segmentata. Wara l-isem formidabbli "mudell probabilistiku grafiku" jaħbi filtru Gaussian konvenzjonali, li huwa approssimat b'ħames punti.
  • Ippruvaw insemmu l-apparat IrfinaDet (Single-Shot Irfinament Netwerk Newrali għall-Oġġett Detezzjoni), imma ma fhimtx wisq.
  • Ħarist ukoll lejn kif taħdem it-teknoloġija tal-"attenzjoni": video1, video2, video3. Karatteristika distintiva tal-arkitettura ta '"attenzjoni" hija l-għażla awtomatika ta' reġjuni ta 'attenzjoni akbar fl-immaġni (RoI, Regions of Interess) bl-użu ta’ netwerk newrali msejjaħ Attention Unit. Reġjuni ta 'attenzjoni akbar huma simili għal kaxxi tal-konfini, iżda b'differenza minnhom, mhumiex fissi fl-immaġni u jista' jkollhom konfini mċajpra. Imbagħad, minn reġjuni ta 'attenzjoni akbar, is-sinjali (karatteristiċi) huma iżolati, li huma "mitmugħa" għal netwerks newrali rikorrenti b'arkitetturi LSDM, GRU jew Vanilla RNN. Netwerks newrali rikorrenti huma kapaċi janalizzaw ir-relazzjoni tal-karatteristiċi f'sekwenza. Netwerks newrali rikorrenti inizjalment intużaw biex jittraduċu test f'lingwi oħra, u issa għat-traduzzjoni immaġini għal test и test għal immaġni.

Hekk kif nesploraw dawn l-arkitetturi Irrealizzajt li ma nifhem xejn. U mhux li n-netwerk newrali tiegħi għandu problemi bil-mekkaniżmu tal-attenzjoni. Il-ħolqien ta 'dawn l-arkitetturi kollha huwa bħal xi tip ta' hackathon enormi, fejn l-awturi jikkompetu fil-hacks. Hack hija soluzzjoni ta 'malajr għal problema ta' softwer diffiċli. Jiġifieri, m'hemm l-ebda konnessjoni loġika viżibbli u li tinftiehem bejn dawn l-arkitetturi kollha. Dak kollu li jgħaqqadhom huwa sett tal-aktar hacks ta’ suċċess li jissellfu minn xulxin, flimkien ma’ wieħed komuni għal kulħadd operazzjoni ta' konvoluzzjoni b'ċirku magħluq (iżball backpropagation, backpropagation). Nru ħsieb tas-sistemi! Mhux ċar x'għandu jinbidel u kif jiġu ottimizzati l-kisbiet eżistenti.

Bħala riżultat tan-nuqqas ta 'konnessjoni loġika bejn il-hacks, huma estremament diffiċli biex tiftakar u tapplika fil-prattika. Dan huwa għarfien frammentat. Fl-aħjar, ftit mumenti interessanti u mhux mistennija jiġu mfakkra, iżda ħafna minn dak li huwa mifhum u inkomprensibbli jisparixxi mill-memorja fi ftit jiem. Ikun tajjeb jekk f’ġimgħa tiftakar tal-anqas l-isem tal-arkitettura. Iżda bosta sigħat u anke jiem ta 'ħin tax-xogħol inqatgħu jaqraw artikli u jaraw filmati ta' reviżjoni!

Netwerks newrali. Fejn sejjer dan kollu?

Figura 2 – Zoo ta 'Netwerks Neural

Ħafna awturi ta 'artikoli xjentifiċi, fl-opinjoni personali tiegħi, jagħmlu dak kollu possibbli biex jiżguraw li anke dan l-għarfien frammentat ma jinftiehemx mill-qarrej. Iżda frażijiet partiċipjali f'sentenzi ta' għaxar linji b'formuli li jittieħdu "minn l-arja" huma suġġett għal artiklu separat (problema tippubblika jew titlef).

Għal din ir-raġuni, hemm bżonn li l-informazzjoni tiġi sistematizzata bl-użu ta 'netwerks newrali u, b'hekk, tiżdied il-kwalità tal-fehim u l-memorizzazzjoni. Għalhekk, is-suġġett ewlieni ta 'analiżi ta' teknoloġiji u arkitetturi individwali ta 'netwerks newrali artifiċjali kien il-kompitu li ġej: sib fejn sejjer kollox, u mhux l-apparat ta 'kwalunkwe netwerk newrali speċifiku separatament.

Fejn sejjer dan kollu? Riżultati ewlenin:

  • Numru ta' startups tat-tagħlim tal-magni fl-aħħar sentejn waqa’ f’daqqa. Raġuni possibbli: "in-netwerks newrali m'għadhomx xi ħaġa ġdida."
  • Kulħadd jista 'joħloq netwerk newrali li jaħdem biex isolvi problema sempliċi. Biex tagħmel dan, ħu mudell lest miż-“żoo mudell” u ħarreġ l-aħħar saff tan-netwerk newrali (ittrasferixxi t-tagħlim) dwar data lesta minn Google Dataset Fittex jew minn 25 elf sett tad-dejta Kaggle b'xejn sħaba Jupyter Notebook.
  • Manifatturi kbar ta 'netwerks newrali bdew joħolqu "żoos mudell" (żoo mudell). Meta tużahom tista 'malajr toħloq applikazzjoni kummerċjali: TF Hub għal TensorFlow, MMDdetection għal PyTorch, Detectron għal Caffe2, chainer-modelzoo għal Chainer u oħrajn.
  • Netwerks newrali jaħdmu fi ħin reali (ħin reali) fuq apparat mobbli. Minn 10 sa 50 frejm kull sekonda.
  • L-użu ta 'netwerks newrali fit-telefowns (TF Lite), fil-browsers (TF.js) u fil oġġetti tad-dar (IoT, Iinternet of Tċappetti). Speċjalment fit-telefowns li diġà jappoġġjaw netwerks newrali fil-livell tal-ħardwer (aċċeleraturi newrali).
  • “Kull apparat, oġġett tal-ħwejjeġ, u forsi anke ikel se jkollu Indirizz IP-v6 u jikkomunikaw ma 'xulxin" - Sebastian Thrun.
  • In-numru ta’ pubblikazzjonijiet dwar it-tagħlim tal-magni beda jikber jaqbeż il-liġi ta’ Moore (jirduppjaw kull sentejn) mill-2015. Ovvjament, għandna bżonn netwerks newrali għall-analiżi tal-artikoli.
  • It-teknoloġiji li ġejjin qed jiksbu popolarità:
    • PyTorch – il-popolarità qed tikber malajr u tidher li qed taqbeż lil TensorFlow.
    • Għażla awtomatika ta 'iperparametri AutoML – il-popolarità qed tikber bla xkiel.
    • Tnaqqis gradwali fl-eżattezza u żieda fil-veloċità tal-kalkolu: loġika fuzzy, algoritmi spinta, kalkoli mhux eżatti (approssimattivi), kwantizzazzjoni (meta l-piżijiet tan-netwerk newrali jiġu kkonvertiti f'numri interi u kwantizzati), aċċeleraturi newrali.
    • Traduzzjoni immaġini għal test и test għal immaġni.
    • ħolqien Oġġetti 3D minn vidjo, issa f'ħin reali.
    • Il-ħaġa prinċipali dwar DL hija li hemm ħafna dejta, iżda l-ġbir u t-tikkettar mhuwiex faċli. Għalhekk, l-awtomazzjoni tal-markup qed tiżviluppa (annotazzjoni awtomatizzata) għal netwerks newrali li jużaw netwerks newrali.
  • B'netwerks newrali, ix-Xjenza tal-Kompjuter saret f'daqqa xjenza sperimentali u qam kriżi tar-riproduċibbiltà.
  • Il-flus tal-IT u l-popolarità tan-netwerks newrali ħarġu fl-istess ħin meta l-informatika saret valur tas-suq. L-ekonomija qed tinbidel minn ekonomija tad-deheb u tal-munita għal gold-currency-computing. Ara l-artiklu tiegħi fuq ekonofiżika u r-raġuni għad-dehra tal-flus tal-IT.

Gradwalment tidher waħda ġdida Metodoloġija ta' programmar ML/DL (Machine Learning & Deep Learning), li hija bbażata fuq ir-rappreżentazzjoni tal-programm bħala sett ta 'mudelli ta' netwerk newrali mħarrġa.

Netwerks newrali. Fejn sejjer dan kollu?

Figura 3 – ML/DL bħala metodoloġija ġdida ta' programmar

Madankollu, qatt ma deher "teorija tan-netwerk newrali", li fih tista' taħseb u taħdem b'mod sistematiku. Dak li issa jissejjaħ "teorija" huwa fil-fatt algoritmi euristiċi sperimentali.

Links għal riżorsi tiegħi u oħrajn:

Grazzi tal-attenzjoni tiegħek!

Sors: www.habr.com

Żid kumment