Taugakerfi. Hvert er þetta allt að fara?

Greinin samanstendur af tveimur hlutum:

  1. Stutt lýsing á sumum netarkitektúrum fyrir hlutgreiningu í myndum og myndskiptingu með skiljanlegustu tenglum á auðlindir fyrir mig. Ég reyndi að velja myndbandsskýringar og helst á rússnesku.
  2. Annar hlutinn er tilraun til að skilja stefnu þróunar taugakerfisarkitektúra. Og tækni byggð á þeim.

Taugakerfi. Hvert er þetta allt að fara?

Mynd 1 - Það er ekki auðvelt að skilja taugakerfisarkitektúr

Þetta byrjaði allt með því að búa til tvö kynningarforrit fyrir flokkun og greiningu hluta á Android síma:

  • Kynning á bakhlið, þegar gögn eru unnin á þjóninum og send í símann. Myndflokkun þriggja tegunda björna: brúnn, svartan og bangsa.
  • Framhlið kynninguþegar unnið er úr gögnunum í símanum sjálfum. Greining á hlutum (hlutgreining) af þremur gerðum: heslihnetum, fíkjum og döðlum.

Það er munur á verkefnum myndflokkunar, hlutgreiningar í mynd og myndskiptingu. Þess vegna var þörf á að komast að því hvaða taugakerfisarkitektúr greinir hluti í myndum og hverjir geta skipt í sundur. Ég fann eftirfarandi dæmi um arkitektúr með skiljanlegustu tenglum á auðlindir fyrir mig:

  • Röð arkitektúra byggða á R-CNN (Rsvæðum með Cþróun Neural Nlögun networks): R-CNN, Fast R-CNN, Hraðari R-CNN, Gríma R-CNN. Til að greina hlut á mynd er afmörkunarreitum úthlutað með því að nota Region Proposal Network (RPN) vélbúnaðinn. Upphaflega var hægari sértæka leitin notuð í stað RPN. Síðan eru valin takmörkuðu svæði færð til inntaks hefðbundins taugakerfis til flokkunar. R-CNN arkitektúrinn hefur skýrar „fyrir“ lykkjur yfir takmörkuð svæði, samtals allt að 2000 keyrslur í gegnum AlexNet innra netið. Skýrar „fyrir“ lykkjur hægja á myndvinnsluhraða. Fjöldi skýrra lykkja sem liggja í gegnum innra tauganetið minnkar með hverri nýrri útgáfu af arkitektúrnum og tugir annarra breytinga eru gerðar til að auka hraða og skipta út hlutgreiningarverkefninu fyrir hlutskiptingu í Mask R-CNN.
  • Yolo (You ONly Look Once) er fyrsta tauganetið sem þekkti hluti í rauntíma í farsímum. Sérkenni: aðgreina hluti í einni keyrslu (horfðu bara einu sinni). Það er, í YOLO arkitektúrnum eru engar skýrar „fyrir“ lykkjur, þess vegna virkar netið hratt. Til dæmis þessi samlíking: í NumPy, þegar aðgerðir eru framkvæmdar með fylki, eru heldur engar skýrar „for“ lykkjur, sem í NumPy eru útfærðar á lægri stigum arkitektúrsins í gegnum C forritunarmálið. YOLO notar rist af fyrirfram skilgreindum gluggum. Til að koma í veg fyrir að sami hluturinn sé skilgreindur mörgum sinnum er gluggaskörunarstuðullinn (IoU) notaður. Igatnamót over Union). Þessi arkitektúr starfar á breitt svið og hefur hátt styrkleika: Hægt er að þjálfa módel í ljósmyndum en standa sig samt vel á handteiknuðum málverkum.
  • SSD (Single Sheitur MultiBox Detector) – farsælustu „hakk“ YOLO arkitektúrsins eru notuð (til dæmis óhámarksbæling) og nýjum bætt við til að láta tauganetið virka hraðar og nákvæmara. Sérkenni: aðgreina hluti í einni keyrslu með því að nota tiltekið rist af gluggum (sjálfgefinn kassi) á myndpýramídanum. Myndapýramídinn er kóðaður í snúningsspennurum með samfelldum snúnings- og samþjöppunaraðgerðum (með max-pooling-aðgerðinni minnkar rýmisvíddin). Þannig eru bæði stórir og smáir hlutir ákvarðaðir í einni netkeyrslu.
  • MobileSSD (FarsímiNetV2+ SSD) er sambland af tveimur taugakerfisarkitektúrum. Fyrsta netið MobileNetV2 virkar hratt og eykur greiningarnákvæmni. MobileNetV2 er notað í stað VGG-16, sem upphaflega var notað í upprunalega grein. Annað SSD netið ákvarðar staðsetningu hluta á myndinni.
  • SqueezeNet - mjög lítið en nákvæmt tauganet. Í sjálfu sér leysir það ekki vandamálið við uppgötvun hluta. Hins vegar er hægt að nota það í blöndu af mismunandi arkitektúr. Og notað í farsímum. Sérkennin er að gögnunum er fyrst þjappað saman í fjórar 1×1 snúningssíur og síðan stækkaðar í fjórar 1×1 og fjórar 3×3 snúningssíur. Ein slík endurtekning á þensluþjöppun gagna er kölluð „Fire Module“.
  • DeepLab (Semantic Image Segmentation with Deep Convolutional Nets) – skipting hluta á myndinni. Einkennandi eiginleiki arkitektúrsins er útvíkkun, sem varðveitir staðbundna upplausn. Þessu er fylgt eftir með eftirvinnslustigi niðurstaðna með því að nota grafískt líkindalíkan (skilyrt slembisvið), sem gerir þér kleift að fjarlægja lítinn hávaða í skiptingunni og bæta gæði sundraða myndarinnar. Á bak við hið ægilega nafn „grafískt líkindalíkan“ leynist hefðbundin Gaussíusía, sem er áætluð um fimm punkta.
  • Reyndi að finna út tækið RefineDet (Einstöku skot betrumbætament Tauganet fyrir hlut Detkafla), en ég skildi ekki mikið.
  • Ég skoðaði líka hvernig „athygli“ tæknin virkar: myndband1, myndband2, myndband3. Einkennandi eiginleiki „athygli“ arkitektúrsins er sjálfvirkt val á svæðum með aukinni athygli í myndinni (RoI, Regions of Interest) með því að nota taugakerfi sem kallast Attention Unit. Svæði með aukinni athygli líkjast afmörkunarreitum, en ólíkt þeim eru þeir ekki fastir í myndinni og gætu verið óskýr mörk. Síðan, frá svæðum með aukinni athygli, eru merki (eiginleikar) einangruð, sem eru „fóðruð“ í endurteknar taugakerfi með arkitektúr LSDM, GRU eða Vanilla RNN. Endurtekin tauganet geta greint tengsl eiginleika í röð. Endurtekin taugakerfi voru upphaflega notuð til að þýða texta á önnur tungumál og nú til þýðingar myndir í texta и texti í mynd.

Þegar við könnum þessa arkitektúr Ég áttaði mig á því að ég skil ekki neitt. Og það er ekki það að tauganetið mitt eigi í vandræðum með athygliskerfið. Sköpun allra þessara arkitektúra er eins og einhvers konar risastórt hakkaþon, þar sem höfundar keppa í hakkum. Hack er fljótleg lausn á erfiðu hugbúnaðarvandamáli. Það er að segja að það er engin sýnileg og skiljanleg rökleg tengsl á milli allra þessara byggingarlistar. Allt sem sameinar þá er safn af farsælustu járnsögunum sem þeir fá að láni hver frá öðrum, auk sameiginlegs fyrir alla aðgerð með lokuðu lykkju (error backpropagation, backpropagation). Nei kerfishugsun! Það er ekki ljóst hverju á að breyta og hvernig á að hagræða núverandi afrekum.

Vegna skorts á rökréttum tengslum milli járnsög er mjög erfitt að muna þau og beita þeim í reynd. Þetta er sundurleit þekking. Í besta falli er minnst nokkurra áhugaverðra og óvæntra augnablika, en flest það sem er skilið og óskiljanlegt hverfur úr minninu innan fárra daga. Það mun vera gott ef þú manst eftir viku að minnsta kosti nafnið á arkitektúrnum. En nokkrum klukkustundum og jafnvel dögum af vinnutíma var eytt í að lesa greinar og horfa á umfjöllunarmyndbönd!

Taugakerfi. Hvert er þetta allt að fara?

Mynd 2 – Zoo of Neural Networks

Flestir höfundar vísindagreina, að mínu mati, gera allt sem hægt er til að tryggja að jafnvel þessi sundurleita þekking skilji ekki lesandann. En þáttasetningar í tíu línusetningum með formúlum sem eru teknar „úr lausu lofti“ eru efni fyrir sérstaka grein (vandamál birta eða farast).

Af þessum sökum er þörf á að skipuleggja upplýsingar með því að nota tauganet og auka þannig gæði skilnings og minninga. Þess vegna var meginviðfangsefni greiningar á einstökum tækni og arkitektúr gervi tauganeta eftirfarandi verkefni: finna út hvert það er allt að fara, og ekki tæki neins sérstaks taugakerfis sérstaklega.

Hvert er þetta allt að fara? Helstu niðurstöður:

  • Fjöldi gangsettra vélanáms á síðustu tveimur árum lækkaði verulega. Hugsanleg ástæða: "tauganet eru ekki lengur eitthvað nýtt."
  • Hver sem er getur búið til virkt tauganet til að leysa einfalt vandamál. Til að gera þetta skaltu taka tilbúið líkan úr „líkandýragarðinum“ og þjálfa síðasta lagið af tauganetinu (flytja nám) um tilbúin gögn frá Google gagnasettaleit eða frá 25 þúsund Kaggle gagnapakka í ókeypis ský Jupyter Notebook.
  • Stórir framleiðendur tauganeta byrjuðu að búa til "fyrirmynd dýragarða" (dýragarðslíkan). Með því að nota þá geturðu fljótt búið til viðskiptaforrit: TF Hub fyrir TensorFlow, MMDetection fyrir PyTorch, Skynjari fyrir Caffe2, chainer-modelzoo fyrir Chainer og aðrir.
  • Tauganet sem vinna í alvöru tími (rauntíma) í farsímum. Frá 10 til 50 rammar á sekúndu.
  • Notkun tauganeta í símum (TF Lite), í vöfrum (TF.js) og í búsáhöld (IoT, Inetkerfi of Things). Sérstaklega í símum sem styðja nú þegar taugakerfi á vélbúnaðarstigi (taugahraðlar).
  • „Hvert tæki, fatnaður og kannski jafnvel matur mun hafa IP-v6 vistfang og hafa samskipti sín á milli" - Sebastian Þrun.
  • Ritum um vélanám hefur farið að fjölga fara fram úr lögum Moore (tvöfaldast á tveggja ára fresti) síðan 2015. Augljóslega þurfum við tauganet til að greina greinar.
  • Eftirfarandi tækni nýtur vinsælda:
    • PyTorch – vinsældir fara ört vaxandi og virðast vera að fara fram úr TensorFlow.
    • Sjálfvirkt val á hyperparameters AutoML - Vinsældir aukast vel.
    • Smám saman minnkandi nákvæmni og aukning á útreikningshraða: óljós rökfræði, reiknirit uppörvun, ónákvæmar (áætlanir) útreikningar, magngreining (þegar þyngd tauganetsins er breytt í heiltölur og magngreind), taugahraðlar.
    • Þýðing myndir í texta и texti í mynd.
    • sköpun 3D hlutir úr myndbandi, núna í rauntíma.
    • Aðalatriðið við DL er að það er mikið af gögnum en það er ekki auðvelt að safna þeim og merkja. Þess vegna er sjálfvirkni merkingar að þróast (sjálfvirka athugasemd) fyrir tauganet sem nota tauganet.
  • Með tauganetum varð tölvunarfræði skyndilega tilraunavísindi og reis upp fjölföldunarkreppa.
  • IT peningar og vinsældir tauganeta komu fram samtímis þegar tölvumál urðu markaðsvirði. Hagkerfið er að breytast úr gull- og gjaldeyrishagkerfi í gull-gjaldeyris-tölvu. Sjá grein mína um hagfræði og ástæðan fyrir útliti upplýsingatæknipeninga.

Smám saman birtist ný ML/DL forritunaraðferðafræði (Machine Learning & Deep Learning), sem byggir á því að tákna forritið sem mengi þjálfaðra taugakerfislíkana.

Taugakerfi. Hvert er þetta allt að fara?

Mynd 3 – ML/DL sem ný forritunaraðferðafræði

Það kom þó aldrei fram "taugakerfiskenning", þar sem þú getur hugsað og unnið markvisst. Það sem nú er kallað „kenning“ er í raun tilraunakennt, heuristic reiknirit.

Tenglar á mitt og önnur úrræði:

Svara með tilvísun!

Heimild: www.habr.com

Bæta við athugasemd