Sare neuronalak. Nora doa hau guztia?

Artikuluak bi zati ditu:

  1. Irudietan objektuak hautemateko eta irudien segmentaziorako sare-arkitektura batzuen deskribapen laburra, baliabideetarako esteka ulergarrienekin niretzat. Bideo azalpenak aukeratzen saiatu naiz eta hobe errusieraz.
  2. Bigarren zatia neurona-sare-arkitekturen garapenaren nondik norakoak ulertzeko saiakera da. Eta horietan oinarritutako teknologiak.

Sare neuronalak. Nora doa hau guztia?

1. Irudia - Sare neuronaleko arkitekturak ulertzea ez da erraza

Dena Android telefono batean objektuak sailkatzeko eta detektatzeko bi demo aplikazio eginez hasi zen:

  • Back-end demoa, datuak zerbitzarian prozesatzen direnean eta telefonora transmititzen direnean. Hiru hartz motaren irudien sailkapena: marroia, beltza eta pelutxea.
  • Frontend demoadatuak telefonoan bertan prozesatzen direnean. Hiru motatako objektuak hautematea (objektuen detekzioa): hurrak, pikuak eta datilak.

Desberdintasuna dago irudien sailkapenaren, irudi batean objektuak hautematearen eta irudien segmentazioa. Hori dela eta, jakin beharra zegoen zein sare neuronaleko arkitekturak detektatzen dituzten objektuak irudietan eta zeintzuk segmentatu ditzaketen. Baliabideetarako esteka ulergarrienak dituzten arkitektura adibide hauek aurkitu ditut:

  • R-CNNn oinarritutako arkitektura sorta bat (Rduten eskualdeak Conboluzioa Neural Networks ezaugarriak): R-CNN, R-CNN azkarra, R-CNN azkarragoa, R-CNN maskara. Irudi batean objektu bat detektatzeko, muga-koadroak esleitzen dira Region Proposal Network (RPN) mekanismoa erabiliz. Hasieran, Selective Search mekanismo motelagoa erabili zen RPNren ordez. Ondoren, hautatutako eskualde mugatuak ohiko sare neuronal baten sarrerara elikatzen dira sailkatzeko. R-CNN arkitekturak "for" begizta esplizituak ditu eskualde mugatuetan, guztira 2000 exekuzioraino AlexNet barne sarearen bidez. "For" begizta esplizituek irudiak prozesatzeko abiadura moteltzen dute. Barne sare neuronalean zehar ibiltzen diren begizta esplizituen kopurua murrizten da arkitekturaren bertsio berri bakoitzean, eta beste dozenaka aldaketa egiten dira abiadura handitzeko eta objektuak detektatzeko zeregina Mask R-CNN-n objektuen segmentazioarekin ordezkatzeko.
  • YOLO (You On bakarrik LEra berean, Once) gailu mugikorretan objektuak denbora errealean ezagutzen zituen lehen neurona-sarea da. Ezaugarri bereizgarria: objektuak lasterketa batean bereiztea (begiratu behin). Hau da, YOLO arkitekturan ez dago "for" begizta espliziturik, horregatik sareak azkar funtzionatzen du. Adibidez, analogia hau: NumPyn, matrizeekin eragiketak egitean, ez dago β€œfor” begizta espliziturik ere, NumPyn arkitekturaren beheko mailetan inplementatzen direnak C programazio-lengoaiaren bidez.YOLOk aurrez definitutako leihoen sareta erabiltzen du. Objektu bera behin baino gehiagotan definitu ez dadin, leihoen gainjartze koefizientea (IoU) erabiltzen da. Ibidegurutzea oikusi Union). Arkitektura honek sorta zabalean funtzionatzen du eta altua du sendotasuna: Modelo bat argazkietan treba daiteke, baina eskuz marraztutako margoetan ondo funtzionatzen du.
  • SSD (SIngle SMultiBox beroa Detector) - YOLO arkitekturaren "hack" arrakastatsuenak erabiltzen dira (adibidez, ez-gehienezko ezabaketa) eta berriak gehitzen dira sare neuronalak azkarrago eta zehatzago funtziona dezan. Ezaugarri bereizgarria: exekuzio batean objektuak bereiztea leihoen sareta (koadro lehenetsia) erabiliz irudi-piramidean. Irudi-piramidea konboluzio-tentsoreetan kodetzen da, ondoz ondoko konboluzio- eta bilketa-eragiketen bidez (max-bilketa eragiketarekin, dimentsio espaziala gutxitzen da). Modu honetan, objektu handiak zein txikiak sareko exekuzio batean zehazten dira.
  • MobileSSD (mugikorraNetV2+ SSD) bi neurona-sare arkitekturaren konbinazioa da. Lehen sarea MobileNetV2 azkar funtzionatzen du eta aitorpenaren zehaztasuna areagotzen du. MobileNetV2 VGG-16-ren ordez erabiltzen da, jatorrian erabiltzen zena jatorrizko artikulua. Bigarren SSD sareak irudiko objektuen kokapena zehazten du.
  • SqueezeNet – Neurona-sare oso txikia baina zehatza. Berez, ez du objektuak hautemateko arazoa konpontzen. Hala ere, arkitektura ezberdinen konbinazioan erabil daiteke. Eta gailu mugikorretan erabiltzen da. Ezaugarri bereizgarria da datuak lehenik lau 1Γ—1 konboluzio-iragazkitan konprimitzen direla eta gero lau 1Γ—1 eta lau 3Γ—3 konboluzio-iragazkitan zabaltzen direla. Datuen konpresio-hedapenaren iterazio bat "Fire Module" deitzen da.
  • DeepLab (Semantic Image Segmentation with Deep Convolutional Nets) - irudiko objektuen segmentazioa. Arkitekturaren ezaugarri bereizgarria konboluzio dilatatua da, bereizmen espaziala gordetzen duena. Horren ondoren, emaitzen osteko prozesatze-etapa bat dago probabilitate-eredu grafikoa erabiliz (ausazko eremu baldintzatua), segmentazioan zarata txikia kentzeko eta segmentatutako irudiaren kalitatea hobetzeko aukera ematen duena. "Eredu probabilistiko grafikoa" izen ikaragarriaren atzean Gaussiar iragazki konbentzionala ezkutatzen da, bost puntuz gutxi gorabehera.
  • Gailua asmatzen saiatu da FinantzaDet (Jaurtiketa bakarrekoa FinduObjekturako Sare Neuronala daekzio), baina ez nuen asko ulertzen.
  • "Arreta" teknologiak nola funtzionatzen duen ere aztertu nuen: bideoa 1, bideoa 2, bideoa 3. "Arreta" arkitekturaren ezaugarri bereizgarri bat irudian arreta handiagoa duten eskualdeen hautaketa automatikoa da (RoI, Regions of Ininterest) Arreta Unitatea izeneko neurona-sare bat erabiliz. Arreta handiagoa duten eskualdeak muga-koadroen antzekoak dira, baina haiek ez bezala, ez daude irudian finkoak eta baliteke muga lausoak izatea. Gero, arreta handiagoko eskualdeetatik, zeinuak (ezaugarriak) isolatzen dira, arkitekturak dituzten neurona-sare errepikakorretara "elikatzen" direnak. LSDM, GRU edo Vanilla RNN. Sare neuronal errekurrenteak gai dira sekuentzia bateko ezaugarrien erlazioa aztertzeko. Sare neuronal errekurrenteak hasieran testuak beste hizkuntza batzuetara itzultzeko erabiltzen ziren, eta orain itzultzeko irudiak testura ΠΈ testutik irudira.

Arkitektura hauek aztertzen ari garen heinean Konturatu nintzen ez dudala ezer ulertzen. Eta ez da nire sare neuronalak arreta mekanismoarekin arazoak dituenik. Arkitektura hauen guztien sorrera hackaton erraldoi baten modukoa da, non egileak hacketan lehiatzen diren. Hack software arazo zail bati irtenbide azkarra da. Hau da, ez dago arkitektura horien guztien artean lotura logiko ikusgarri eta ulergarririk. Batzen dituen guztia elkarrengandik maileguan hartzen dituzten hack arrakastatsuenen multzoa da, eta guztientzako komun bat begizta itxiko biribildura-eragiketa (atzera-hedapena akatsa, atzera-hedapena). Ez pentsamendu sistematikoa! Ez dago argi zer aldatu eta nola optimizatu dauden lorpenak.

Hacken arteko lotura logikorik ezaren ondorioz, oso zaila da gogoratzea eta praktikan aplikatzea. Hau ezagutza zatikatua da. Onenean, une interesgarri eta ustekabeko batzuk gogoratzen dira, baina ulertu eta ulertezina dena memoriatik desagertu egiten da egun gutxiren buruan. Ona izango da aste batean gutxienez arkitekturaren izena gogoratzen baduzu. Baina lan-ordu batzuk eta baita egunak ere artikuluak irakurtzen eta iritzi-bideoak ikusten eman ziren!

Sare neuronalak. Nora doa hau guztia?

2. irudia - Sare Neuronalen Zooa

Artikulu zientifikoen egile gehienek, nire ustez, ahal dena egiten dute ezagutza zatikatu hori irakurleak ulertu ez dezan. Baina hamar lerroko esaldietako partizipio-sintagmak "zerbaitetik" ateratzen diren formulekin aparteko artikulu baterako gaia dira (arazoa argitaratu edo hil).

Hori dela eta, informazioa sare neuronalak erabiliz sistematizatu beharra dago eta, horrela, ulermenaren eta memorizazioaren kalitatea areagotu beharra dago. Hori dela eta, sare neuronal artifizialen teknologia eta arkitektura indibidualen analisiaren gai nagusia honako zeregina izan zen: jakin nora doan, eta ez sare neuronal zehatz baten gailua bereizita.

Nora doa hau guztia? Emaitza nagusiak:

  • Ikaskuntza automatikoko startup-en kopurua azken bi urteetan nabarmen erori zen. Arrazoi posiblea: "sare neuronalak jada ez dira zerbait berria".
  • Edonork sor dezake laneko sare neuronal bat arazo sinple bat konpontzeko. Horretarako, hartu "modelo zoo"tik prestatutako eredu bat eta entrenatu sare neuronalaren azken geruza (ikaskuntza transferitzea) prest egindako datuei buruz Google Dataset Search edo bertatik 25 mila Kaggle datu multzo librean hodeia Jupyter Koadernoa.
  • Neurona-sareen fabrikatzaile handiak sortzen hasi ziren "zoo eredugarriak" (zoo eredua). Horiek erabiliz aplikazio komertziala azkar sor dezakezu: TF Hub TensorFlow-erako, MMDdetekzioa PyTorch-entzat, Detectron Caffe2rentzat, kate-modelozoo Chainerrentzat eta beste batzuk.
  • Sare neuronalak lanean denbora erreala (denbora errealean) gailu mugikorretan. 10 eta 50 fotograma segundoko.
  • Telefonoetan (TF Lite), nabigatzaileetan (TF.js) eta sare neuronalen erabilera etxeko gauzak (IoT, Iinternet of Tgiltzak). Batez ere hardware mailan sare neuronalak onartzen dituzten telefonoetan (azeleragailu neuronalak).
  • Β«Gailu, arropa eta, agian, janari guztiek izango dute IP-v6 helbidea eta elkarrekin komunikatu" - Sebastian Thrun.
  • Ikaskuntza automatikoari buruzko argitalpenen kopurua hazten hasi da Mooreren legea gainditzea (bi urtean behin bikoiztuz) 2015etik. Argi dago, neurona-sareak behar ditugu artikuluak aztertzeko.
  • Teknologia hauek ospea hartzen ari dira:
    • PyTorch - ospea azkar hazten ari da eta badirudi TensorFlow gainditzen ari dela.
    • Hiperparametroen hautaketa automatikoa AutoML - ospea leunki hazten ari da.
    • Zehaztasuna pixkanaka gutxitzea eta kalkulu-abiadura handitzea: logika lausoa, algoritmoak bultzatzea, kalkulu zehatzak (gutxi gorabeherakoak), kuantizazioa (neural-sarearen pisuak zenbaki oso bihurtu eta kuantifikatzen direnean), azeleragailu neuronalak.
    • itzulpen irudiak testura ΠΈ testutik irudira.
    • sortzea Bideotik 3D objektuak, orain denbora errealean.
    • DLren gauza nagusia datu asko daudela da, baina biltzea eta etiketatzea ez da erraza. Hori dela eta, markatze automatizazioa garatzen ari da (ohar automatikoa) sare neuronalak erabiltzen dituzten neurona-sareetarako.
  • Sare neuronalekin, Informatika bat-batean bihurtu zen zientzia esperimentala eta sortu zen Erreproduzigarritasun krisia.
  • Informatika dirua eta sare neuronalen ospea aldi berean sortu ziren informatika merkatuko balio bihurtu zenean. Ekonomia urrezko eta moneta ekonomia izatetik aldatzen ari da urre-moneta-konputazioa. Ikusi nire artikulua ekonofisika eta informatikako dirua agertzearen arrazoia.

Pixkanaka berri bat agertzen da ML/DL programazio metodologia (Machine Learning & Deep Learning), programa trebatutako sare neuronal-ereduen multzo gisa irudikatzean oinarritzen dena.

Sare neuronalak. Nora doa hau guztia?

3. Irudia – ML/DL programazio-metodologia berri gisa

Hala ere, ez zen inoiz agertu "sare neuronalaren teoria", zeinaren barruan pentsatu eta sistematikoki lan egin dezakezu. Gaur egun "teoria" deitzen dena algoritmo heuristiko esperimentalak dira.

Nire eta beste baliabide batzuetarako estekak:

Eskerrik asko zure arreta!

Iturria: www.habr.com

Gehitu iruzkin berria