عصبي شبکې. دا ټول چیرته ځي؟

مقاله له دوو برخو جوړه ده:

  1. په عکسونو کې د اعتراض کشف او د عکس قطع کولو لپاره د ځینې شبکې جوړښتونو لنډ توضیحات زما لپاره سرچینو ته خورا د پوهیدو وړ لینکونو سره. ما هڅه وکړه چې د ویډیو توضیحات غوره کړم او په غوره توګه په روسیه کې.
  2. دویمه برخه د عصبي شبکې جوړښتونو د پرمختګ په لور د پوهیدو هڅه ده. او د دوی پر بنسټ ټیکنالوژي.

عصبي شبکې. دا ټول چیرته ځي؟

شکل 1 - د عصبي شبکې جوړښتونو پوهیدل اسانه ندي

دا ټول په Android تلیفون کې د اعتراض ډلبندۍ او کشف لپاره د دوه ډیمو غوښتنلیکونو په جوړولو سره پیل شوي:

  • د شاته پای ډیمو، کله چې ډاټا په سرور کې پروسس کیږي او تلیفون ته لیږدول کیږي. د درې ډوله ږیرو د انځور طبقه بندي: نسواري، تور او ټیډي.
  • د مخکینۍ پای ډیموکله چې ډاټا پخپله په تلیفون کې پروسس کیږي. د څيزونو کشف (د څيز کشف) په درې ډوله: هزلنټ، انځر او خرما.

د انځور طبقه بندي، په عکس کې د څیز کشف او د دندو ترمنځ توپیر شتون لري د انځور ویش. له همدې امله، د دې موندلو ته اړتیا وه چې د عصبي شبکې جوړښتونه په عکسونو کې شیان کشف کوي او کوم یې برخې کولی شي. ما د معمارۍ لاندې مثالونه وموندل چې زما لپاره سرچینو ته خورا د پوهیدو وړ لینکونو سره:

  • د R-CNN پر بنسټ د جوړښتونو لړۍ (Rسره سیمې Cبدلون Nیورال Nد etworks ځانګړتیاوې): R-CNN، چټک R-CNN، چټک R-CNN, ماسک R-CNN. په عکس کې د یو څیز د موندلو لپاره، د ساحې د وړاندیز شبکې (RPN) میکانیزم په کارولو سره د بانډینګ بکسونه تخصیص شوي. په پیل کې، د RPN پرځای د ورو انتخابي لټون میکانیزم کارول کیده. بیا ټاکل شوې محدودې سیمې د طبقه بندي لپاره د دودیز عصبي شبکې ان پټ ته تغذیه کیږي. د R-CNN جوړښت په محدودو سیمو کې روښانه "لپ" لري، چې د الیکس نیټ داخلي شبکې له لارې تر 2000 پورې منډې لري. ښکاره "لپاره" لوپونه د عکس پروسس کولو سرعت ورو کوي. د داخلي عصبي شبکې له لارې د څرګند لوپونو شمیر د معمارۍ هرې نوې نسخې سره کمیږي ، او په لسګونو نور بدلونونه د سرعت زیاتولو او په ماسک R-CNN کې ​​د اعتراض قطع کولو سره د اعتراض کشف کولو دنده بدلولو لپاره رامینځته کیږي.
  • YOLO (You Oنیلی Look Once) لومړنی عصبي شبکه ده چې په ګرځنده وسیلو کې په ریښتیني وخت کې شیان پیژني. ځانګړی ځانګړتیا: په یوه منډه کې د شیانو توپیر کول (یوازې یو ځل وګورئ). دا دی، د YOLO جوړښت کې هیڅ روښانه "لپ" شتون نلري، له همدې امله شبکه په چټکۍ سره کار کوي. د مثال په توګه، دا مشابهت: په NumPy کې، کله چې د میټریکونو سره عملیات ترسره کوي، د "for" لوپونه هم شتون نلري، کوم چې په NumPy کې د C پروګرامینګ ژبې له لارې د جوړښت په ټیټه کچه پلي کیږي. YOLO د مخکینۍ تعریف شوي وینډوز گرډ کاروي. د دې لپاره چې ورته څیز څو ځله تعریف شي ، د کړکۍ اوورلیپ کوفیینټ (IoU) کارول کیږي. Iتقاطع over Union). دا جوړښت په پراخه کچه کار کوي او لوړ لري قويتوب: یو ماډل په عکسونو کې روزل کیدی شي مګر بیا هم په لاسي انځورونو کې ښه کار کوي.
  • SSD (Sخولې Sګرم ملټي بکس Detector) - د YOLO جوړښت ترټولو بریالي "هیک" کارول کیږي (د مثال په توګه، غیر اعظمي فشار) او نوي اضافه شوي ترڅو د عصبي شبکې کار ګړندی او ډیر دقیق کړي. ځانګړی ځانګړتیا: د عکس په پیرامیډ کې د وینډوز (ډیفالټ بکس) د ورکړل شوي ګریډ په کارولو سره په یوه وخت کې د شیانو توپیر کول. د عکس پیرامیډ د پرله پسې کنولوشن او پولینګ عملیاتو له لارې د کنولوشن ټینسرونو کې کوډ شوی دی (د اعظمي پولینګ عملیاتو سره ، ځایي اړخ کمیږي). په دې توګه، دواړه لوی او کوچني توکي په یوه شبکه کې ټاکل کیږي.
  • MobileSSD (د موبايل پهNetV2+ SSD) د دوه عصبي شبکې جوړښتونو ترکیب دی. لومړی شبکه MobileNetV2 په چټکۍ سره کار کوي او د پیژندنې دقت زیاتوي. MobileNetV2 د VGG-16 پرځای کارول کیږي، کوم چې په اصل کې کارول شوی و اصلي مقاله. دوهم SSD شبکه په عکس کې د شیانو موقعیت ټاکي.
  • SqueezeNet - یو ډیر کوچنی مګر دقیق عصبي شبکه. پخپله، دا د اعتراض کشف ستونزه نه حل کوي. په هرصورت، دا د مختلف جوړښتونو په ترکیب کې کارول کیدی شي. او په ګرځنده وسیلو کې کارول کیږي. ځانګړی ځانګړتیا دا ده چې ډاټا لومړی په څلورو 1 × 1 کنولوشنل فلټرونو کې کمپریس کیږي او بیا په څلورو 1 × 1 او څلور 3 × 3 کنولوشن فلټرونو کې پراخیږي. د ډیټا کمپریشن - توسیع یو ورته تکرار د "فائر ماډل" په نوم یادیږي.
  • ژور لیب (د ژورو کنولوشنل جالونو سره د سیمانټیک عکس قطع کول) - په عکس کې د شیانو قطع کول. د معمارۍ یو ځانګړی ځانګړتیا د ډیلیټ کنوولوشن دی، کوم چې د ځایی حل ساتنه کوي. دا د ګرافیک احتمالي ماډل (مشروط تصادفي ساحې) په کارولو سره د پایلو وروسته پروسس کولو مرحله تعقیب کیږي ، کوم چې تاسو ته اجازه درکوي په قطع کولو کې کوچني شور لرې کړئ او د قطع شوي عکس کیفیت ښه کړئ. د "ګرافیک احتمالي ماډل" د قوي نوم شاته یو دودیز گاوسی فلټر پټوي ، کوم چې نږدې پنځه ټکي دی.
  • هڅه وکړه چې وسیله معلومه کړي RefineDet (واحد شاټ پاکولد اعتراض لپاره عصبي شبکه تفصیلection)، مګر زه ډیر نه پوهیږم.
  • ما دا هم ولیدل چې د "توجه" ټیکنالوژي څنګه کار کوي: ویډیو1, ویډیو2, ویډیو3. د "توجه" د جوړښت یو ځانګړی ځانګړتیا په عکس کې د زیاتې پاملرنې سیمو اتوماتیک انتخاب دی (RoI، Rلښکر of Interest) د پاملرنې واحد په نوم د عصبي شبکې کارول. د زیاتې پاملرنې سیمې د تړلو بکسونو سره ورته دي، مګر د دوی برعکس، دوی په عکس کې ندي ټاکل شوي او ممکن تیاره سرحدونه ولري. بیا، د زیاتې پاملرنې له سیمو څخه، نښې (خصوصیات) جلا شوي، کوم چې د معمارۍ سره تکراري عصبي شبکو ته "خوړل" کیږي. LSDM، GRU یا وینیلا RNN. تکراري عصبي شبکې د دې وړتیا لري چې د ځانګړتیاو اړیکې په ترتیب کې تحلیل کړي. تکراري عصبي شبکې په پیل کې په نورو ژبو کې د متن ژباړلو لپاره کارول شوې وې، او اوس د ژباړې لپاره متن ته انځورونه и انځور ته متن.

لکه څنګه چې موږ دا معمارۍ وپلټئ زه پوهیدم چې زه هیڅ نه پوهیږم. او دا نده چې زما عصبي شبکه د پاملرنې میکانیزم سره ستونزې لري. د دې ټولو جوړښتونو رامینځته کول د یو ډول لوی هیکاتون په څیر دی ، چیرې چې لیکوالان په هیکونو کې سیالي کوي. هیک د ستونزمن سافټویر ستونزې لپاره چټک حل دی. دا د دې ټولو جوړښتونو تر مینځ هیڅ ښکاره او د پوهیدو وړ منطقي اړیکه شتون نلري. ټول هغه څه چې دوی سره متحد کوي د خورا بریالي هیکونو یوه مجموعه ده چې دوی له یو بل څخه پور اخلي او د ټولو لپاره یو عام دی د تړل شوي لوپ کنولوشن عملیات (د تېروتنې شاته پروپاګیشن، بیک پروپیګیشن). نه د سیسټم فکر! دا روښانه نده چې څه باید بدل شي او موجوده لاسته راوړنې څنګه اصلاح کړي.

د هیکونو تر مینځ د منطقي اړیکو نشتوالي په پایله کې، دوی په عمل کې یاد او پلي کول خورا ستونزمن دي. دا ټوټه ټوټه پوهه ده. په غوره توګه، یو څو په زړه پورې او ناڅاپي شیبې په یاد دي، مګر ډیری هغه څه چې د پوهیدلو او نه پوهیدو وړ دي په څو ورځو کې له حافظې څخه ورک کیږي. دا به ښه وي که په یوه اونۍ کې تاسو لږترلږه د معمارۍ نوم یاد کړئ. مګر څو ساعته او حتی ورځې کاري وخت د مقالو لوستلو او بیاکتنې ویډیوګانو لیدلو کې مصرف شوي!

عصبي شبکې. دا ټول چیرته ځي؟

شکل 2 – د عصبي شبکو ژوبڼ

د ساینسي مقالو ډیری لیکوالان، زما په شخصي نظر، هر ممکنه هڅه کوي ترڅو ډاډ ترلاسه کړي چې حتی دا ټوټه شوې پوهه د لوستونکي لخوا نه پوهیږي. مګر برخه اخیستونکي جملې په لسو کرښو جملو کې د فورمولونو سره چې "له هوا څخه بهر" اخیستل شوي د جلا مقالې لپاره موضوع ده (ستونزه خپور یا له منځه تلل).

د دې دلیل لپاره، د عصبي شبکو په کارولو سره د معلوماتو سیسټم کولو ته اړتیا ده او پدې توګه، د پوهیدو او یادولو کیفیت لوړول. له همدې امله، د انفرادي ټیکنالوژیو او مصنوعي عصبي شبکو جوړښتونو تحلیل اصلي موضوع لاندې دنده وه: ومومئ چې دا ټول چیرته ځي، او نه په جلا توګه د کوم ځانګړي عصبي شبکې وسیله.

دا ټول چیرته ځي؟ اصلي پایلې:

  • په تیرو دوو کلونو کې د ماشین زده کړې پیلونو شمیر په چټکۍ سره سقوط وکړ. احتمالي دلیل: "عصبي شبکې نور نوي ندي."
  • هر څوک کولی شي د ساده ستونزې حل کولو لپاره کاري عصبي شبکه رامینځته کړي. د دې کولو لپاره، د "ماډل ژوبڼ" څخه یو چمتو شوی ماډل واخلئ او د عصبي شبکې وروستی پرت وروزل (د زده کړې انتقالد چمتو شوي ډیټا څخه د ګوګل ډیټاسیټ لټون یا له 25 زره کیګل ډیټاسیټونه په وړیا توګه بادل جوپیټر نوټ بوک.
  • د عصبي شبکو لوی تولید کونکو رامینځته کول پیل کړل "ماډل ژوبڼ" (ماډل ژوبڼ). د دوی په کارولو سره تاسو کولی شئ په چټکۍ سره سوداګریز غوښتنلیک جوړ کړئ: د TF مرکز د TensorFlow لپاره، MMD کشف د PyTorch لپاره، کشفي د Caffe2 لپاره، chainer-modelzoo د چینر او لپاره نور.
  • عصبي شبکې کار کوي اصلي وخت (ریښتیني وخت) په ګرځنده وسیلو کې. په هره ثانیه کې له 10 څخه تر 50 چوکاټونو پورې.
  • په تلیفونونو (TF Lite)، براوزرونو (TF.js) کې د عصبي شبکو کارول د کور توکي (IoT، Iنیټرنټ of Tهنګ). په ځانګړي توګه په تلیفونونو کې چې دمخه د هارډویر په کچه د عصبي شبکو ملاتړ کوي (عصبي سرعت کونکي).
  • "هر وسیله، د جامو توکي، او شاید حتی خواړه به ولري IP-v6 پته او یو له بل سره اړیکه ونیسئ" - سیباستیان ترون.
  • د ماشین زده کړې په اړه د خپرونو شمیر وده پیل کړې د مور له قانون څخه تجاوز (په هرو دوو کلونو کې دوه چنده) د 2015 راهیسې. په ښکاره ډول، موږ د مقالو تحلیل کولو لپاره عصبي شبکو ته اړتیا لرو.
  • لاندې ټیکنالوژي د شهرت ترلاسه کوي:
    • پینټورچ - شهرت په چټکۍ سره وده کوي او داسې بریښي چې د TensorFlow څخه تیریږي.
    • د هایپرپرامیټرونو اتوماتیک انتخاب اتومات - شهرت په اسانۍ سره وده کوي.
    • په دقت کې تدریجي کمښت او د محاسبې سرعت کې زیاتوالی: مبهم منطق, algorithms وده ورکول, ناڅاپه (نږدې) محاسبه، مقدار کول (کله چې د عصبي شبکې وزن په انټیجرونو او مقدارونو بدل شي)، عصبي سرعت کونکي.
    • لیږدول متن ته انځورونه и انځور ته متن.
    • جوړول د ویډیو څخه 3D توکي، اوس په ریښتیني وخت کې.
    • د DL په اړه اصلي شی دا دی چې ډیری ډیټا شتون لري، مګر د هغې راټولول او لیبل کول اسانه ندي. له همدې امله د مارک اپ اتومات وده کوي (اتوماتیک تشریح) د عصبي شبکو لپاره د عصبي شبکو په کارولو سره.
  • د عصبي شبکو سره، کمپیوټر ساینس ناڅاپه شو تجربوي ساینس او راپورته شو د تولید وړتیا بحران.
  • د معلوماتي ټکنالوجۍ پیسې او د عصبي شبکو شهرت په ورته وخت کې راڅرګند شو کله چې کمپیوټر د بازار ارزښت شو. اقتصاد د سرو زرو او اسعارو اقتصاد څخه بدلیږي د سرو زرو اسعارو کمپیوټري. زما مقاله وګورئ اقتصاد فزیک او د آی ټي پیسو د څرګندیدو لامل.

په تدریجي ډول یو نوی ښکاري د ML/DL پروګرام کولو میتودولوژي (د ماشین زده کړه او ژوره زده کړه)، کوم چې د روزل شوي عصبي شبکې ماډلونو سیټ په توګه د پروګرام استازیتوب کولو پر بنسټ والړ دی.

عصبي شبکې. دا ټول چیرته ځي؟

شکل 3 – ML/DL د نوي پروګرام کولو میتودولوژي په توګه

په هرصورت، دا هیڅکله نه ښکاري "د عصبي شبکې تیوري"په کوم کې چې تاسو کولی شئ په سیستماتیک ډول فکر او کار وکړئ. هغه څه چې اوس د "تیوري" په نوم یادیږي په حقیقت کې تجربوي، هوریستیک الګوریتمونه دي.

زما او نورو سرچینو لینکونه:

ستاسو د پاملرنې مننه!

سرچینه: www.habr.com

Add a comment