🥇Torên neuralî. Ew hemî diçe ku derê

Gotar ji du beşan pêk tê:

Danasînek kurt a hin mîmarên torê yên ji bo tespîtkirina tiştan di wêneyan û dabeşkirina wêneyê de bi girêdanên herî têgihîştî yên çavkaniyan ji bo min. Min hewl da ku ravekirinên vîdyoyê û bi tercîhî bi rûsî hilbijêrin.
Beşa duyemîn hewldanek e ku meriv rêgeza pêşkeftina mîmariya tora neuralî fam bike. Û teknolojiyên li ser wan.

Figure 1 - Fêmkirina mîmariya tora neuralî ne hêsan e

Hemî bi çêkirina du serîlêdanên demo ji bo dabeşkirin û tespîtkirina tiştan li ser têlefonek Android-ê dest pê kir:

Paş-dawiya demo, dema ku daneyên li ser serverê têne hilberandin û bi têlefonê ve têne şandin. Dabeşkirina wêneyê sê celeb hirçan: qehweyî, reş û tedî.
Demo-end-enddema ku daneya li ser têlefonê bixwe tê hilanîn. Tespîtkirina nesneyan (teşhîskirina objeyan) sê cure: nok, hêjîr û xurme.

Cûdahî di navbera peywirên dabeşkirina wêneyan, vedîtina tiştan di wêneyekê de û dabeşkirina wêneyê. Ji ber vê yekê, pêdivî bû ku meriv fêr bibe ka kîjan mîmarên tora neuralî tiştên di wêneyan de kifş dikin û kîjan dikarin perçe bikin. Min mînakên jêrîn ên mîmarî yên ku ji bo min girêdanên herî têgihîştî yên çavkaniyan dîtin:

Rêzek mîmarî li ser bingeha R-CNN (Rherêmên bi Convolution Neural Ntaybetmendiyên etworks): R-CNN, Fast R-CNN, Zûtir R-CNN, Mask R-CNN. Ji bo dîtina tiştek di wêneyekê de, qutiyên sînorkirî bi karanîna mekanîzmaya Tora Pêşniyara Herêmê (RPN) têne veqetandin. Di destpêkê de, mekanîzmaya Lêgerîna Hilbijartî ya hêdîtir li şûna RPN hate bikar anîn. Dûv re herêmên tixûbdar ên hilbijartî ji bo dabeşkirinê bi têketina tora neuralî ya kevneşopî têne xwarin. Mîmariya R-CNN li ser herêmên tixûbdar lûkên "ji bo" yên eşkere hene, ku bi tevahî heya 2000 di nav tora hundurîn a AlexNet re derbas dibe. Loopên eşkere "ji bo" leza hilberandina wêneyê hêdî dikin. Hejmara pêlên eşkere yên ku di nav tora neuralî ya hundurîn re derbas dibin bi her guhertoyek nû ya mîmariyê re kêm dibe, û bi dehan guhertinên din têne çêkirin da ku lezê zêde bikin û peywira tespîtkirina tiştan bi dabeşkirina tiştan di Mask R-CNN de biguhezînin.
YOLO (You Only Look Once) yekem tora neuralî ye ku tiştên di dema rast de li ser cîhazên mobîl nas dike. Taybetmendiya ciyawaz: ciyawazkirina tiştan di yek gavê de (tenê carekê lê binêre). Ango di mîmariya YOLO de xelekên eşkere yên "bo" tune ne, ji ber vê yekê torê zû dixebite. Mînakî, ev analojî: di NumPy de, dema ku bi matrican re operasyon tê kirin, lûpên "bo" yên eşkere jî tune ne, ku di NumPy de bi zimanê bernamenûsê C di astên jêrîn ên mîmariyê de têne bicîh kirin. YOLO tora pencereyên pêşwextkirî bikar tîne. Ji bo pêşîlêgirtina ku heman tişt gelek caran were pênase kirin, hevbera hevgirtina pencereyê (IoU) tê bikar anîn. Ixaç oVer Union). Ev mîmarî di çarçoveyek berfireh de dixebite û xwedî bilind e xurtbûn: Modelek dikare li ser wêneyan were perwerde kirin lê dîsa jî li ser tabloyên bi destan hatine kişandin baş performansê dike.
SSD (Sgewr SMultiBox germ Detector) - "hak"ên herî serketî yên mîmariya YOLO têne bikar anîn (mînak, tepeserkirina ne-herî zêde) û yên nû têne zêdekirin da ku tora neuralî zûtir û rasttir bixebite. Taybetmendiya ciyawaz: cihêkirina tiştan di yek gavê de bi karanîna tora paceyên diyarkirî (qutiya xwerû) li ser pîramîda wêneyê. Pîramîda wêneyê di nav tensorên guheztinê de bi navgîniya operasyonên lihevxistin û berhevkirinê yên li pey hev tê kod kirin (bi operasyona max-hevgirtinê re, pîvana cîhê kêm dibe). Bi vî rengî, hem tiştên mezin û hem jî yên piçûk di yek rêvekirina torê de têne destnîşankirin.
MobileSSD (HejîNetV2+ SSD) ji du mîmariya tora neuralî têkeliyek e. Tora yekem MobileNetV2 zû dixebite û rastbûna naskirinê zêde dike. MobileNetV2 li şûna VGG-16, ku di destpêkê de tê bikar anîn, tê bikar anîn gotara orjînal. Tora duyemîn SSD cîhê tiştên di wêneyê de diyar dike.
SqueezeNet - tora neuralî ya pir piçûk lê rast. Bi serê xwe, ew pirsgirêka tespîtkirina objeyan çareser nake. Lêbelê, ew dikare di tevlihevkirina mîmarên cûda de were bikar anîn. Û di cîhazên mobîl de tê bikaranîn. Taybetmendiya ciyawaz ev e ku dane pêşî li çar parzûnên konvokî yên 1×1 têne berhev kirin û dûv re li çar parzûnên konvokî yên 1×1 û çar 3×3 têne berfireh kirin. Yek ji dubarekirina berhevkirin-berfirehkirina daneyê jê re "Modula Agir" tê gotin.
DeepLab (Parçekirina Wêneyê Semantîk bi Torên Kûr ên Hevbeş) - dabeşkirina tiştên di wêneyê de. Taybetmendiyek ciyawaz a mîmariyê tevlihevbûna dilteng e, ku çareseriya mekan diparêze. Li dûv wê qonaxek paş-pêvajoya encaman bi karanîna modelek îhtîmalek grafîkî (qada random a şertûalî), ku dihêle hûn di dabeşkirinê de dengek piçûk derxînin û qalîteya wêneya dabeşkirî baştir bikin. Li pişt navê dijwar "modela îhtîmala grafîkî" parzûnek Gaussian ya kevneşopî vedişêre, ku bi pênc xalan tê texmîn kirin.
Hewl da ku amûrê bibînim RefineDet (Tek-Şot Safîkirinment Tora Neuralî ji bo Objektê Ewection), lê min pir fam nekir.
Min her weha nihêrî ku teknolojiya "baldarî" çawa dixebite: video1, video2, video3. Taybetmendiyek cihêreng a mîmariya "baldarî" bijartina otomatîkî ya herêmên ku di wêneyê de zêde baldar in (RoI, Rherêmên of Interest) tora neuralî ya bi navê Yekîneya Baldariyê bikar tîne. Herêmên balê zêde dişibin sindoqên sînordar, lê berevajî wan, ew di wêneyê de ne sabît in û dibe ku sînorên şêrîn hebin. Dûv re, ji herêmên ku bala zêde bûne, nîşan (taybetmendî) têne veqetandin, ku bi mîmarî re bi torên neuralî yên dubare têne "xwarin". LSDM, GRU an Vanilla RNN. Torên neuralî yên dûbare dikarin têkiliya taybetmendiyan bi rêzek analîz bikin. Tora neuralî ya dûbare di destpêkê de ji bo wergerandina nivîsê li zimanên din, û niha jî ji bo wergerandinê hatine bikar anîn wêneyan ji bo nivîsê и nivîs bi wêne.

Dema ku em li van mîmarî digerin Min fêm kir ku ez tiştek fêm nakim. Û ne ew e ku tora neuralî ya min bi mekanîzmaya baldariyê re pirsgirêk hene. Afirandina van hemî mîmarî mîna celebek hackathonek mezin e, ku nivîskar di hacksan de pêşbaziyê dikin. Hack ji bo pirsgirêkek nermalava dijwar çareseriyek bilez e. Yanî di navbera van hemû mîmariyan de ti pêwendiyeke mantiqî ya xuya û têgihîştî nîne. Tiştê ku wan yek dike komek hakên herî serketî ye ku ew ji hev deyn dikin, û ji bo hemîyan jî yek hevpar e. operasyonê de girtî-loop convolution (paş belavbûna xeletî, paşnavberî). Na ramana pergalê! Ne diyar e ku meriv çi biguhezîne û çawa destkeftiyên heyî xweşbîn bike.

Ji ber nebûna girêdana mentiqî ya di navbera hackan de, bîranîn û sepandina wan di pratîkê de pir dijwar e. Ev zanîna perçebûyî ye. Ya herî baş, çend kêliyên balkêş û neçaverêkirî têne bîranîn, lê piraniya tiştên ku têne fam kirin û nayên têgihîştin di nav çend rojan de ji bîrê winda dibin. Ger di hefteyekê de hûn bi kêmanî navê mîmariyê bîr bînin dê baş be. Lê çend demjimêr û tewra rojên xebatê ji xwendina gotaran û temaşekirina vîdyoyên nirxandinê derbas bûn!

jimar 2 - Zoo of Torên Neuralî

Piraniya nivîskarên gotarên zanistî, bi dîtina min a kesane, her tiştî dikin ku ev zanîna perçebûyî jî ji hêla xwendevan ve neyê fam kirin. Lê hevokên beşdar ên di deh hevokên rêzan de bi formulên ku "ji hewaya zirav" têne derxistin mijarek gotarek cihê ne (pirsgirêk weşandin an helak kirin).

Ji ber vê yekê, pêdivî ye ku agahdariya bi karanîna torên neuralî were pergal kirin û bi vî rengî, kalîteya têgihîştin û bîranînê zêde bibe. Ji ber vê yekê, mijara sereke ya analîzkirina teknolojiyên takekesî û mîmarî yên torên neuralî yên çêkirî peywira jêrîn bû: fêr bibin ku ew hemî diçin ku derê, û ne amûra yek tora neuralî ya taybetî ji hev cuda.

Ev hemû ber bi ku ve diçin? Encamên sereke:

Hejmara destpêkirinên fêrbûna makîneyê di du salên dawî de tûj ket. Sedema gengaz: "torên neuralî êdî ne tiştek nû ne."
Her kes dikare tora neuralî ya xebatê biafirîne ku pirsgirêkek hêsan çareser bike. Ji bo kirina vê yekê, modelek amade ji "model zoo" bistînin û qata paşîn a tora neuralî perwerde bikin (fêrbûna veguhastinê) li ser daneya hazir ji Google Dataset Search an ji 25 hezar daneyên Kaggle di belaş de ewr Jupyter Notebook.
Hilberînerên mezin ên torên neuralî dest bi afirandinê kirin "zozanên model" (model zoo). Bi karanîna wan hûn dikarin zû serîlêdanek bazirganî biafirînin: TF Hub ji bo TensorFlow, MMDetection ji bo PyTorch, Detectron ji bo Caffe2, chainer-modelzoo ji bo Chainer û drav.
Tora neuralî tê de dixebitin dema rast (dema rast) li ser cîhazên mobîl. Ji 10 heta 50 frames per second.
Bikaranîna torên neuralî di têlefonan de (TF Lite), di gerokan de (TF.js) û di tiştên malê (IoT, Iînternet of Thing). Bi taybetî di têlefonên ku berê di asta hardware de torên neuralî piştgirî dikin (lezkerên neuralî).
"Her amûr, cil û berg û dibe ku xwarin jî hebe Navnîşana IP-v6 û bi hev re têkilî daynin" - Sebastian Thrun.
Hejmara weşanên li ser fêrbûna makîneyê dest pê kir ku mezin bibe qanûna Moore derbas bike (ji sala 2015-an û vir ve her du salan carekê ducar dibe). Diyar e, ji bo analîzkirina gotaran pêdivî bi torên neuralî heye.
Teknolojiyên jêrîn populer dibin:
- PyTorch - Popularity bi lez mezin dibe û xuya dike ku TensorFlow bi ser dikeve.
- Hilbijartina otomatîkî ya hîperparameteran AutoML - Popularity bi hêsanî mezin dibe.
- Kêmbûna gav bi gav rastbûnê û zêdebûna leza hesabkirinê: mantiqa fuzzy, algorîtmayan zêdekirin, hesapên nerast (teqrîben), quantîzasyon (dema ku giraniya tora neuralî tê veguheztin hejmar û quantîzekirin), lezkerên neuralî.
- Wergerandin wêneyan ji bo nivîsê и nivîs bi wêne.
- creation Tiştên 3D ji vîdyoyê, niha di dema rast de.
- Tişta sereke di derbarê DL de ev e ku gelek dane hene, lê berhevkirin û nîşankirina wê ne hêsan e. Ji ber vê yekê, otomasyona nîşankirinê pêş dikeve (annotation automated) ji bo torên neuralî ku torên neuralî bikar tînin.
Bi torên neuralî re, Zanista Computer ji nişkê ve bû zanista ezmûnî û rabû krîza dubarebûnê.
Pereyên IT û populerbûna torên neuralî di heman demê de derketin holê dema ku hesabkirin bû nirxek bazarê. Aborî ji aboriya zêr û diravî diguhere zêr-pere-computer. Gotara min li ser binêre ekonofizîk û sedema xuyabûna pereyê IT.

Hêdî hêdî yekî nû xuya dike Methodolojiya bernameya ML / DL (Fêrbûna Makîne û Fêrbûna Kûr), ku li ser bingeha nûnertiya bernameyê wekî komek modelên tora neuralî ya perwerdekirî ye.

Wêne 3 - ML/DL wekî rêbazek bernamesaziya nû

Lêbelê, ew qet xuya nebû "teoriya tora neuralî", ku di hundurê wê de hûn dikarin bi pergalî bifikirin û bixebitin. Ya ku naha jê re "teorî" tê gotin, bi rastî algorîtmayên ceribandî, heurîstîkî ne.

Girêdanên min û çavkaniyên din:

Daneyên Zanistî Newsletter. Bi giranî hilberandina wêneyê. Kesê ku bixwaze wê bistîne bila e-nameyek bişîne (foobar167gmailcom). Gava ku materyal berhev dibe ez lînkên gotar û vîdyoyan dişînim.
Agahdariya gelemperî lîsteya kurs û gotarênku min derbas kir û ez dixwazim derbas bikim.
Kurs û vîdyoyên ji bo destpêk, ku divê hûn dest bi xwendina torên neuralî bikin. Broşûra Plus "Destpêka Fêrbûna Makîne û Tora Neuralî ya Artificial".
Amûrên Kêrhatî, ku her kes dê ji bo xwe tiştek balkêş bibînin.
Me ew pir bikêrhatî dîtin. kanalên vîdyoyê ji bo analîzkirina gotarên zanistî ji hêla Data Science. Bibînin, bibin aboneya wan û lînkan ji hevkarên xwe û min re jî derbas bikin. Nimûne:
- Pirtûkên Du Hûrdem
- Henry AI Labs
- Yannic Kilcher
- CodeEmporium
- Blog Chengwei Zhang aka Tony607 bi talîmatên gav-bi-gav û çavkaniya vekirî.

Ji bo baldariya te spas!

Source: www.habr.com

torên neuralî. Ev hemû ber bi ku ve diçe?

Add a comment cancel reply