Reti neurali. Induve va tuttu questu?

L'articulu hè custituitu di dui parti:

  1. Una breve descrizzione di alcune architetture di rete per a rilevazione di l'ughjettu in l'imaghjini è a segmentazione di l'imaghjini cù i ligami più comprensibili à e risorse per mè. Aghju pruvatu à sceglie spiegazioni video è preferibile in russo.
  2. A seconda parte hè un tentativu di capisce a direzzione di u sviluppu di l'architetture di rete neurale. E tecnulugia basatu annantu à elli.

Reti neurali. Induve va tuttu questu?

Figura 1 - Capisce l'architetture di rete neurale ùn hè micca faciule

Tuttu hà cuminciatu da fà duie applicazioni demo per a classificazione è a rilevazione di l'ughjetti in un telefunu Android:

  • Demo back-end, quandu i dati sò trattati in u servitore è trasmessi à u telefunu. Classificazione di l'imaghjini di trè tippi di orsi: marroni, neri è teddy.
  • Demo di front-endquandu i dati hè trattatu nant'à u telefonu stessu. Rilevazione di l'ogetti (deteczione d'ogetti) di trè tippi: nocciole, fichi è datti.

Ci hè una sfarenza trà i travaglii di classificazione di l'imaghjini, rilevazione di l'ughjettu in una maghjina è segmentazione di l'imaghjini. Dunque, ci era bisognu di sapè quale architetture di rete neurale rilevanu l'uggetti in l'imaghjini è quali ponu segmentà. Aghju trovu i seguenti esempi di architetture cù i ligami più comprensibili à e risorse per mè:

  • Una serie di architetture basate nantu à R-CNN (Rregioni cun Convoluzione Neurale Nfunzioni etworks): R-CNN, Fast R-CNN, R-CNN più veloce, Maschera R-CNN. Per detectà un ughjettu in una maghjina, i scatuli di delimitazione sò attribuiti cù u mecanismu di a Rete Proposta di Regione (RPN). Inizialmente, u mecanismu di ricerca selettiva più lenta hè stata utilizata invece di RPN. Allora e regioni limitate selezziunate sò alimentate à l'input di una rete neurale convenzionale per a classificazione. L'architettura R-CNN hà esplicitu "per" loops nantu à e regioni limitate, totalindu finu à 2000 corse attraversu a reta interna AlexNet. I cicli espliciti "per" rallentano a velocità di trasfurmazioni di l'imaghjini. U numaru di loops espliciti chì attraversanu a rete neurale interna diminuisce cù ogni nova versione di l'architettura, è decine d'altri cambiamenti sò fatti per aumentà a velocità è per rimpiazzà u compitu di deteczione di l'ughjettu cù a segmentazione di l'ughjettu in Mask R-CNN.
  • YOLO (You Only Look Once) hè a prima rete neurale chì ricunnosce l'uggetti in tempu reale nantu à i dispositi mobili. Caratteristica distintiva: distingue l'uggetti in una sola corsa (fighjate solu una volta). Questu hè, in l'architettura YOLO ùn ci hè micca esplicitu "per" loops, per quessa chì a reta travaglia rapidamente. Per esempiu, sta analogia: in NumPy, quandu eseguisce operazioni cù matrici, ùn ci hè ancu micca esplicitu "per" loops, chì in NumPy sò implementati à livelli più bassi di l'architettura attraversu a lingua di prugrammazione C. YOLO usa una griglia di finestri predefiniti. Per impediscenu chì u stessu ogettu sia definitu parechje volte, u coefficient di sovrapposizione di finestra (IoU) hè utilizatu. Iintersezzione oVer Union). Questa architettura opera nantu à una larga gamma è hà altu robustezza: Un mudellu pò esse addestratu nantu à e fotografie, ma ancu fà bè nantu à i dipinti disegnati a manu.
  • SSD (Sgroin SHot MultiBox Detector) - i "pirate" più riesciuti di l'architettura YOLO sò usati (per esempiu, a suppressione non-massimu) è i novi sò aghjuntu per fà chì a rete neurale travaglia più veloce è più precisa. Funzione distintiva: distingue l'uggetti in una corsa utilizendu una data griglia di Windows (casella predeterminata) nantu à a piramide di l'imaghjini. A piramide di l'imaghjini hè codificata in tensori di cunvoluzione attraversu operazioni successive di convoluzione è di pooling (cù l'operazione max-pooling, a dimensione spaziale diminuisce). In questu modu, l'uggetti grande è chjuchi sò determinati in una rete run.
  • MobileSSD (mobile,NetV2+ SSD) hè una cumminazione di duie architetture di rete neurale. Prima rete MobileNetV2 funziona rapidamente è aumenta a precisione di ricunniscenza. MobileNetV2 hè utilizatu invece di VGG-16, chì era urigginariamente utilizatu in articulu uriginale. A seconda reta SSD determina u locu di l'uggetti in l'imaghjini.
  • SqueezeNet - una reta neurale assai chjuca ma precisa. Per ellu stessu, ùn risolve micca u prublema di deteczione di l'ughjettu. Tuttavia, si pò ièssiri usatu in una cumminazzioni di differente architetture. È usatu in i dispositi mobile. A caratteristica distintiva hè chì i dati sò prima cumpressi in quattru filtri convolutional 1 × 1 è poi allargati in quattru filtri convolutional 1 × 1 è quattru 3 × 3. Una tali iterazione di espansione di compressione di dati hè chjamata "Modulu di u focu".
  • DeepLab (Semantic Image Segmentation with Deep Convolutional Nets) - segmentazione di l'uggetti in l'imaghjini. Una caratteristica distintiva di l'architettura hè a cunvoluzione dilatata, chì cunserva a risoluzione spaziale. Questu hè seguitu da una tappa di post-processamentu di i risultati chì utilizanu un mudellu probabilisticu gràficu (campu aleatoriu cundiziunale), chì permette di caccià u picculu rumore in a segmentazione è migliurà a qualità di l'imaghjini segmentati. Daretu à u formidabile nome "mudellu probabilisticu gràficu" si nasconde un filtru gaussianu convenzionale, chì hè apprussimatu da cinque punti.
  • Pruvatu à capisce u dispusitivu RefineDet (Single-Shot Riceffiument Network Neural for Object siection), ma ùn aghju micca capitu assai.
  • Aghju vistu ancu cumu funziona a tecnulugia di "attenzione": video 1, video 2, video 3. Una caratteristica distintiva di l'architettura "attenzione" hè a selezzione automatica di e regioni d'attenzione aumentata in l'imaghjini (RoI, Re regioni of Interest) utilizendu una rete neurale chjamata Attention Unit. E regioni di l'attenzione aumentata sò simili à i scatuli di bounding, ma à u cuntrariu di elli, ùn sò micca fissi in l'imaghjini è ponu avè cunfini sfocati. Allora, da e regioni d'attenzione aumentata, i segni (caratteristiche) sò isolati, chì sò "alimentati" à e reti neuronali recurrenti cù architetture. LSDM, GRU o Vanilla RNN. E rete neurali recurrenti sò capaci di analizà a relazione di e caratteristiche in una sequenza. I riti neurali recurrenti sò stati inizialmente usati per traduce u testu in altre lingue, è avà per a traduzzione imagine à u testu и testu à imagine.

Mentre esploremu queste architetture Aghju capitu chì ùn capiscu nunda. È ùn hè micca chì a mo rete neurale hà prublemi cù u mecanismu d'attenzione. A creazione di tutte queste architetture hè cum'è un tipu di hackathon enormi, induve l'autori cumpetenu in pirate. Hack hè una suluzione rapida à un prublema di software difficiule. Vale à dì, ùn ci hè micca una cunnessione logica visibile è capiscibile trà tutte queste architetture. Tuttu ciò chì li unisce hè un inseme di i pirate più riesciuti chì piglianu in prestito l'un l'altru, più un cumunu per tutti. operazione di cunvoluzione in ciclu chjusu (errore backpropagation, backpropagation). Innò sistemi di pensamentu! Ùn hè micca chjaru ciò chì cambia è cumu per ottimisà i rializazioni esistenti.

In u risultatu di a mancanza di cunnessione logica trà i pirate, sò assai difficiuli di ricurdà è applicà in pratica. Questa hè a cunniscenza frammentata. À u megliu, uni pochi di mumenti interessanti è inespettati sò ricurdati, ma a maiò parte di ciò chì hè capitu è ​​incomprensibile sparisce da a memoria in pochi ghjorni. Serà bè se in una settimana vi ricurdate almenu u nome di l'architettura. Ma parechje ore è ancu ghjorni di tempu di travagliu sò stati passati à leghje articuli è fighjendu video di rivista!

Reti neurali. Induve va tuttu questu?

Figura 2 - Zoo di Rete Neural

A maiò parte di l'autori di l'articuli scientifichi, in u mo parè persunale, facenu tuttu u pussibule per assicurà chì ancu sta cunniscenza frammentata ùn hè micca capitu da u lettore. Ma i frasi participiali in dece frasi di linea cù e formule chì sò pigliate "fora di l'aria" sò un tema per un articulu separatu (prublema publicà o perisce).

Per quessa, ci hè bisognu di sistematizà l'infurmazioni cù e rete neurali è, cusì, aumentà a qualità di capiscenu è di memorizazione. Per quessa, u tema principale di l'analisi di e tecnulugia individuali è l'architetture di e rete neurali artificiali era u compitu seguente: scopre induve tuttu va, è micca u dispusitivu di alcuna rete neurale specifica per separatamente.

Induve va tuttu questu? Principali risultati:

  • Numero di startups di apprendimentu di machine in l'ultimi dui anni cascatu bruscamente. Possibile mutivu: "e rete neurali ùn sò più qualcosa di novu".
  • Qualchese pò creà una rete neurale di travagliu per risolve un prublema simplice. Per fà questu, pigliate un mudellu prontu da u "zoo di mudellu" è furmà l'ultima capa di a rete neurale (trasferimentu di apprendimentu) nantu à dati ready-made da Google Dataset Search o da 25 mila datasets Kaggle in liberu Nuvola Jupyter Notebook.
  • I grandi fabricatori di rete neurale cuminciaru à creà "zoo di mudellu" (zoo mudellu). Aduprendu elli pudete creà rapidamente una applicazione cummerciale: TF Hub per TensorFlow, Rilevazione MMD per PyTorch, Detectron per Caffe2, chainer-modelzoo per Chainer è другие.
  • Reti neurali chì travaglianu tempu reale (in tempu reale) nantu à i dispositi mobile. Da 10 à 50 frames per seconda.
  • L'usu di e rete neurali in i telefoni (TF Lite), in i navigatori (TF.js) è in articuli di casa (IoT, IInternet of Tcardini). In particulare in i telefoni chì supportanu digià e rete neurali à u livellu di hardware (acceleratori neurali).
  • "Ogni dispositivu, articulu di vestiti, è forsi ancu l'alimentariu averà indirizzu IP-v6 è cumunicà cù l'altri "- Sebastian Thrun.
  • U numaru di publicazioni nantu à l'apprendimentu machine hà cuminciatu à cresce supera a lege di Moore (duppià ogni dui anni) da u 2015. Ovviamente, avemu bisognu di rete neurale per analizà l'articuli.
  • I seguenti tecnulugii sò guadagnatu pupularità:
    • PyTorch - a pupularità hè in crescita rapida è pare chì supera TensorFlow.
    • Selezzione automatica di iperparametri AutoML - a pupularità hè in crescita liscia.
    • Diminuzione graduale di precisione è aumentu di a velocità di calculu: logica fuzzy, algoritmi rinfurzà, calculi inesatti (approssimati), quantizazione (quandu i pesi di a rete neurale sò cunvertiti in numeri interi è quantizzati), acceleratori neurali.
    • Traduzione imagine à u testu и testu à imagine.
    • criazioni Oggetti 3D da u video, avà in tempu reale.
    • A cosa principal di DL hè chì ci sò assai dati, ma a cullizzioni è l'etichettatura ùn hè micca faciule. Dunque, l'automatizazione di marcatura hè sviluppata (annotazione automatizzata) per e rete neurali chì utilizanu reti neurali.
  • Cù e rete neurali, l'informatica hè diventata subitu scienza sperimentale è s'arrizzò crisa di riproducibilità.
  • I soldi IT è a popularità di e rete neurali emergenu simultaneamente quandu l'informatica hè diventata un valore di mercatu. L'ecunumia cambia da una ecunumia d'oru è di valuta à gold-currency-computing. Vede u mo articulu nantu ecunofisica è u mutivu di l'apparizione di soldi IT.

À pocu à pocu, un novu appare metodulugia di prugrammazione ML/DL (Machine Learning & Deep Learning), chì hè basatu annantu à rapprisintà u prugramma cum'è un inseme di mudelli di rete neurale furmatu.

Reti neurali. Induve va tuttu questu?

Figura 3 - ML / DL cum'è una nova metodulugia di prugrammazione

Tuttavia, ùn hè mai apparsu "Teoria di a rete neurale", in quale pudete pensà è travaglià sistematicamente. Ciò chì avà hè chjamatu "teoria" hè in realtà algoritmi sperimentali, euristici.

Ligami à i mo è altre risorse:

Ti ringraziu per a vostra attenzione!

Source: www.habr.com

Add a comment