Neural Netzwierker. Wou geet dat alles hin?

Den Artikel besteet aus zwee Deeler:

  1. Eng kuerz Beschreiwung vun e puer Netzwierkarchitekturen fir Objekterkennung a Biller a Bildsegmentéierung mat de verständlechste Linken op Ressourcen fir mech. Ech hu probéiert Video Erklärungen ze wielen an am léifsten op Russesch.
  2. Den zweeten Deel ass e Versuch d'Richtung vun der Entwécklung vun neuralen Netzwierkarchitekturen ze verstoen. An Technologien baséiert op hinnen.

Neural Netzwierker. Wou geet dat alles hin?

Figur 1 - Neural Netzwierkarchitekturen ze verstoen ass net einfach

Et huet alles ugefaang andeems Dir zwou Demo Uwendungen fir Objektklassifikatioun an Detektioun op engem Android Telefon gemaach huet:

  • Back-End Demo, wann Daten um Server veraarbecht ginn an op den Telefon iwwerdroen ginn. Bild Klassifikatioun vun dräi Zorte vu Bieren: brong, schwaarz an Teddy.
  • Front-Enn Demowann d'Donnéeën um Telefon selwer veraarbecht ginn. Detektioun vun Objeten (Objeterkennung) vun dräi Typen: Haselnëss, Feigen an Dates.

Et gëtt en Ënnerscheed tëscht den Aufgaben vun der Bildklassifikatioun, Objekterkennung an engem Bild an Bild Segmentatioun. Dofir war et e Besoin fir erauszefannen wéi eng neural Netzwierkarchitekturen Objekter a Biller erkennen a wéi eng kënne segmentéieren. Ech hunn déi folgend Beispiller vun Architekturen mat de verständlechste Linken op Ressourcen fir mech fonnt:

  • Eng Serie vun Architekturen baséiert op R-CNN (RRegiounen mat Convolutioun Neural NEtworks Features): R-CNN, Fast R-CNN, Méi séier R-CNN, Mask R-CNN. Fir en Objet an engem Bild z'entdecken, gi Grenzkëschte mat dem Region Proposal Network (RPN) Mechanismus zougewisen. Am Ufank gouf de méi luesen Selektive Sichmechanismus amplaz vun RPN benotzt. Duerno ginn déi gewielte limitéiert Regiounen un den Input vun engem konventionellen neurale Netzwierk fir Klassifikatioun gefüttert. D'R-CNN Architektur huet explizit "fir" Loops iwwer limitéiert Regiounen, am Ganzen bis zu 2000 Lafen duerch den AlexNet internen Netzwierk. Explizit "fir" Loops verlangsamt d'Bildveraarbechtungsgeschwindegkeet. D'Zuel vun explizit Schleifen, déi duerch dat internt neuralt Netzwierk lafen, fällt mat all neier Versioun vun der Architektur erof, an Dosende vun anere Ännerunge ginn gemaach fir d'Geschwindegkeet ze erhéijen an d'Aufgab vun der Objekterkennung duerch Objektsegmentéierung an der Mask R-CNN ze ersetzen.
  • YOLO (You Ounzepassen Loch Once) ass dat éischt neuralt Netzwierk dat Objekter an Echtzäit op mobilen Apparater erkannt huet. Distinctive Feature: Objeten an engem Laf z'ënnerscheeden (kuckt just eemol). Dat ass, an der YOLO Architektur ginn et keng explizit "fir" Loops, dofir funktionnéiert d'Netzwierk séier. Zum Beispill dës Analogie: an NumPy, wann Dir Operatioune mat Matrizen ausféiert, gëtt et och keng explizit "fir" Loops, déi an NumPy op méi nidderegen Niveauen vun der Architektur duerch d'Programméierungssprooch C. YOLO benotzt e Gitter vu virdefinéierte Fënsteren. Fir ze verhënneren, datt dee selwechten Objet e puer Mol definéiert gëtt, gëtt de Fënsteriwwerlappungskoeffizient (IoU) benotzt. IKräizung oVer Union). Dës Architektur funktionnéiert iwwer eng breet Palette an huet héich Robustheet: E Modell kann op Fotoen trainéiert ginn, awer nach gutt op handgezeechente Biller.
  • natierlech nach (Sengl Swaarm MultiBox Detector) - déi erfollegräichste "Hacks" vun der YOLO Architektur ginn benotzt (zum Beispill, net-maximal Ënnerdréckung) an nei ginn derbäigesat fir den neurale Netzwierk méi séier a méi präzis ze maachen. Distinctive Feature: Objeten an engem Laf z'ënnerscheeden mat engem bestëmmte Gitter vu Fënsteren (Standardbox) op der Bildpyramide. D'Bildpyramide gëtt a Konvolutiounstensoren duerch successive Konvolutioun a Pooloperatioune kodéiert (mat der Max-Pooling-Operatioun reduzéiert d'raimlech Dimensioun). Op dës Manéier ginn souwuel grouss a kleng Objeten an engem Netzlaf bestëmmt.
  • MobileSSD (MobileNetV2+ natierlech nach) ass eng Kombinatioun vun zwee neurale Netzwierkarchitekturen. Éischt Netzwierk MobileNetV2 Wierker séier a vergréissert Unerkennung Richtegkeet. MobileNetV2 gëtt benotzt amplaz VGG-16, déi ursprénglech benotzt gouf original Artikel. Déi zweet SSD Netz bestëmmt d'Plaz vun Objeten am Bild.
  • SqueezeNet - e ganz klengt awer präzis neuralt Netzwierk. Selwer léist et de Problem vun der Objekterkennung net. Wéi och ëmmer, et kann an enger Kombinatioun vu verschiddenen Architekturen benotzt ginn. A benotzt an mobilen Apparater. D'distinctive Feature ass datt d'Donnéeën fir d'éischt a véier 1 × 1 Konvolutiounsfilter kompriméiert ginn an duerno a véier 1 × 1 a véier 3 × 3 Konvolutiounsfilter ausgebaut ginn. Eng esou Datekompressiouns-Expansioun Iteratioun gëtt e "Fire Module" genannt.
  • DeepLab (Semantesch Bild Segmentatioun mat Deep Convolutional Nets) - Segmentatioun vun Objeten am Bild. Eng ënnerschiddlech Feature vun der Architektur ass dilated Konvolutioun, déi raimlech Opléisung erhaalt. Dëst ass gefollegt vun enger Post-Veraarbechtungsstadium vun de Resultater mat engem grapheschen probabilistesche Modell (bedingt zoufälleg Feld), wat Iech erlaabt kleng Geräischer an der Segmentatioun ze läschen an d'Qualitéit vum segmentéierte Bild ze verbesseren. Hannert dem formidabelen Numm "grapheschen probabilistesche Modell" verstoppt sech e konventionell Gaussianfilter, dee vu fënnef Punkte geschätzt gëtt.
  • Probéiert den Apparat erauszefannen RefineDet (Single-Shot Aktualitéitment Neural Network fir Objekt etection), awer ech hunn net vill verstanen.
  • Ech hunn och gekuckt wéi d'"Opmierksamkeet" Technologie funktionnéiert: video1, video2, video3. Eng ënnerschiddlech Feature vun der "Opmierksamkeet" Architektur ass d'automatesch Auswiel vu Regioune mat verstäerkter Opmierksamkeet am Bild (RoI, Rlegiounen of Interest) mat engem neurale Netzwierk genannt Attention Unit. Regioune vu verstäerkter Opmierksamkeet sinn ähnlech wéi Begrenzungsboxen, awer am Géigesaz zu hinnen, si sinn net am Bild fixéiert a kënne verschwonnene Grenzen hunn. Dann, aus Regioune vu verstäerkter Opmierksamkeet, sinn Schëlder (Features) isoléiert, déi "gefüttert" ginn op widderhuelend neural Netzwierker mat Architekturen LSDM, GRU oder Vanilla RNN. Widderhuelend neural Netzwierker kënnen d'Relatioun vu Featuren an enger Sequenz analyséieren. Widderhuelend neural Netzwierker goufen ufanks benotzt fir Text an aner Sproochen ze iwwersetzen, an elo fir Iwwersetzung Biller op Text и Text op Bild.

Wéi mir dës Architekturen entdecken Ech hu gemierkt datt ech näischt verstinn. An et ass net datt mäi neurale Netzwierk Probleemer mam Opmierksamkeetsmechanismus huet. D'Schafung vun all dësen Architekturen ass wéi eng Aart vu risegen Hackathon, wou Autoren an Hacks konkurréiere. Hack ass eng séier Léisung fir e schwieregen Softwareproblem. Dat ass, et gëtt keng siichtbar a verständlech logesch Verbindung tëscht all dësen Architekturen. Alles wat se verbënnt ass eng Rei vun den erfollegräichsten Hacks déi se vunenee léinen, plus e gemeinsame fir all zougemaach-Schleifen Convolution Operatioun (Feeler Réckpropagatioun, Réckpropagatioun). Nee Systemdenken! Et ass net kloer wat ze änneren a wéi bestehend Leeschtungen ze optimiséieren.

Als Resultat vum Mangel u logescher Verbindung tëscht Hacks, si si extrem schwéier ze erënneren an an der Praxis z'applizéieren. Dëst ass fragmentéiert Wëssen. Am beschten ginn e puer interessant an onerwaart Momenter erënnert, awer déi meescht vun deem wat verständlech an onverständlech ass, verschwënnt bannent e puer Deeg aus der Erënnerung. Et wäert gutt sinn wann Dir an enger Woch op d'mannst den Numm vun der Architektur erënnert. Awer e puer Stonnen a souguer Deeg Aarbechtszäit goufe verbruecht fir Artikelen ze liesen a Bewäertungsvideoen ze kucken!

Neural Netzwierker. Wou geet dat alles hin?

Bild 2 - Zoo vun Neural Netzwierker

Déi meescht Auteure vu wëssenschaftlechen Artikelen, a menger perséinlecher Meenung, maachen alles fir datt och dëst fragmentéiert Wëssen net vum Lieser versteet. Awer partizipativ Ausdréck an zéng Zeilen Sätz mat Formelen déi "aus dënn Loft" geholl ginn sinn en Thema fir en separaten Artikel (Problem publizéieren oder ëmkommen).

Aus dësem Grond ass et néideg Informatioun mat neuralen Netzwierker ze systematiséieren an domat d'Qualitéit vum Verständnis an Erënnerung ze erhéijen. Dofir war d'Haaptthema vun der Analyse vun eenzelne Technologien an Architekturen vu kënschtlechen neuralen Netzwierker déi folgend Aufgab: erausfannen wou et alles geet, an net den Apparat vun engem spezifeschen neuralen Netzwierk separat.

Wou geet dat alles hin? Haaptresultater:

  • Zuel vu Maschinnléiere Startups an de leschten zwee Joer staark gefall. Méiglech Ursaach: "neural Netzwierker sinn net méi eppes Neies."
  • Jiddereen kann en funktionéierenden neurale Netzwierk erstellen fir en einfache Problem ze léisen. Fir dëst ze maachen, huelt e fäerdege Modell aus dem "Modell Zoo" an trainéiert déi lescht Schicht vum neurale Netzwierk (transferéieren Léieren) op fäerdeg Daten aus Google Dateset Sich oder vun 25 dausend Kaggle Datesätz an fräi Wollek Jupyter Notizbuch.
  • Grouss Hiersteller vun neurale Netzwierker hunn ugefaang ze kreéieren "Modell Zoos" (Modell Zoo). Mat hinnen kënnt Dir séier eng kommerziell Applikatioun erstellen: TF Hub fir TensorFlow, MMDetektioun fir PyTorch, Detectron fir Kaffi 2, chainer-modelzoo fir Chainer an aner.
  • Neural Netzwierker déi an Echtzäit (Echtzäit) op mobilen Apparater. Vun 10 bis 50 Frames pro Sekonn.
  • D'Benotzung vun neurale Netzwierker an Telefonen (TF Lite), a Browser (TF.js) an an Haushaltsartikelen (IoT, IInternet of Things). Besonnesch an Telefonen déi schonn neural Netzwierker um Hardwareniveau ënnerstëtzen (neural Beschleuniger).
  • "All Apparat, Kleedungsstéck, a vläicht souguer Iessen wäert hunn IP-v6 Adress a kommunizéieren mateneen" - Sebastian Thrun.
  • D'Zuel vun de Publikatiounen iwwer Maschinnléieren huet ugefaang ze wuessen dem Moore säi Gesetz iwwerschreiden (Verdueblung all zwee Joer) zënter 2015. Natierlech brauche mir neural Netzwierker fir Artikelen ze analyséieren.
  • Déi folgend Technologien gewannen Popularitéit:
    • PyTorch - Popularitéit wiisst séier a schéngt TensorFlow z'iwwerhuelen.
    • Automatesch Auswiel vun Hyperparameter AutoML - Popularitéit wiisst glat.
    • Graduell Ofsenkung vun der Genauegkeet an Erhéijung vun der Berechnungsgeschwindegkeet: fuzzy Logik, algorithms boosting, onexakt (ongeféier) Berechnungen, Quantiséierung (wann d'Gewiichter vum neuralen Netzwierk an ganz Zuelen ëmgewandelt a quantiséiert ginn), neural Beschleuniger.
    • Iwwersetzung Biller op Text и Text op Bild.
    • Kreatioun XNUMXD Objete vum Video, elo an Echtzäit.
    • D'Haaptsaach iwwer DL ass datt et vill Daten gëtt, awer se sammelen an ze markéieren ass net einfach. Dofir ass d'Markup Automatiséierung entwéckelt (automatiséiert Annotatioun) fir neural Netzwierker déi neural Netzwierker benotzen.
  • Mat neurale Netzwierker gouf Computer Science op eemol experimentell Wëssenschaft an opgestan Reproducibilitéitskris.
  • IT Suen an d'Popularitéit vun neuralen Netzwierker entstanen gläichzäiteg wann Informatik e Maartwäert gouf. D'Wirtschaft ännert sech vun enger Gold- a Währungswirtschaft op Gold-Währung-Rechenzäit. Gesinn mäin Artikel op Econophysik an de Grond fir d'Erscheinung vun IT Suen.

Lues a lues erschéngt en neien ML/DL Programméierungsmethodologie (Machine Learning & Deep Learning), dee baséiert op der Representatioun vum Programm als eng Rei vun ausgebilten neuralen Netzwierkmodeller.

Neural Netzwierker. Wou geet dat alles hin?

Figur 3 - ML / DL als nei programméiere Methodik

Allerdéngs ass et ni opgetaucht "Neural Netzwierk Theorie", an deem Dir systematesch nodenken a schaffe kënnt. Wat elo "Theorie" genannt gëtt ass eigentlech experimentell, heuristesch Algorithmen.

Linken op meng an aner Ressourcen:

Merci fir Är Opmierksamkeet!

Source: will.com

Setzt e Commentaire