اعصابی نیٹ ورکس۔ یہ سب کہاں جا رہا ہے؟

مضمون دو حصوں پر مشتمل ہے:

  1. میرے لیے وسائل کے سب سے زیادہ قابل فہم روابط کے ساتھ امیجز میں آبجیکٹ کا پتہ لگانے اور امیج سیگمنٹیشن کے لیے کچھ نیٹ ورک آرکیٹیکچرز کی ایک مختصر تفصیل۔ میں نے ویڈیو کی وضاحت اور ترجیحی طور پر روسی میں منتخب کرنے کی کوشش کی۔
  2. دوسرا حصہ نیورل نیٹ ورک آرکیٹیکچرز کی ترقی کی سمت کو سمجھنے کی کوشش ہے۔ اور ان پر مبنی ٹیکنالوجیز۔

اعصابی نیٹ ورکس۔ یہ سب کہاں جا رہا ہے؟

شکل 1 - نیورل نیٹ ورک کے فن تعمیر کو سمجھنا آسان نہیں ہے۔

یہ سب ایک اینڈرائیڈ فون پر آبجیکٹ کی درجہ بندی اور پتہ لگانے کے لیے دو ڈیمو ایپلی کیشنز بنانے سے شروع ہوا:

  • بیک اینڈ ڈیمو، جب ڈیٹا کو سرور پر پروسیس کیا جاتا ہے اور فون پر منتقل کیا جاتا ہے۔ ریچھوں کی تین اقسام کی تصویری درجہ بندی: بھورا، سیاہ اور ٹیڈی۔
  • فرنٹ اینڈ ڈیموجب فون پر ہی ڈیٹا پر کارروائی ہوتی ہے۔ تین اقسام کی اشیاء کی کھوج (آبجیکٹ ڈیٹیکشن): ہیزلنٹ، انجیر اور کھجور۔

تصویر کی درجہ بندی کے کاموں میں فرق ہے، تصویر میں آبجیکٹ کا پتہ لگانے اور تصویر کی تقسیم. لہذا، یہ معلوم کرنے کی ضرورت تھی کہ کون سے نیورل نیٹ ورک آرکیٹیکچر تصاویر میں موجود اشیاء کا پتہ لگاتے ہیں اور کون سی سیگمنٹ کر سکتے ہیں۔ مجھے اپنے لیے وسائل کے سب سے زیادہ قابل فہم روابط کے ساتھ فن تعمیر کی درج ذیل مثالیں ملیں:

  • آر-سی این این پر مبنی فن تعمیر کا ایک سلسلہ (Rکے ساتھ علاقوں Cارتقاء Nیورل Networks کی خصوصیات: R-CNN، فاسٹ R-CNN، تیز تر R-CNN, ماسک R-CNN. کسی تصویر میں کسی چیز کا پتہ لگانے کے لیے، ریجن پروپوزل نیٹ ورک (RPN) میکانزم کا استعمال کرتے ہوئے باؤنڈنگ باکسز مختص کیے جاتے ہیں۔ ابتدائی طور پر، RPN کی بجائے سست سلیکٹیو سرچ میکانزم استعمال کیا جاتا تھا۔ پھر منتخب کردہ محدود علاقوں کو درجہ بندی کے لیے روایتی نیورل نیٹ ورک کے ان پٹ پر کھلایا جاتا ہے۔ R-CNN فن تعمیر میں محدود علاقوں میں واضح طور پر "لئے" لوپس ہیں، جو کہ AlexNet کے اندرونی نیٹ ورک کے ذریعے 2000 تک چلتا ہے۔ واضح "برائے" لوپس امیج پروسیسنگ کی رفتار کو کم کرتے ہیں۔ اندرونی عصبی نیٹ ورک کے ذریعے چلنے والے واضح لوپس کی تعداد فن تعمیر کے ہر نئے ورژن کے ساتھ کم ہوتی جاتی ہے، اور رفتار بڑھانے کے لیے اور ماسک R-CNN میں آبجیکٹ کی شناخت کے کام کو آبجیکٹ سیگمنٹیشن سے بدلنے کے لیے درجنوں دیگر تبدیلیاں بھی کی جاتی ہیں۔
  • Yolo کی (You Oنلی Lبھی Once) پہلا نیورل نیٹ ورک ہے جس نے موبائل آلات پر اشیاء کو حقیقی وقت میں پہچانا۔ مخصوص خصوصیت: ایک رن میں اشیاء کو الگ کرنا (صرف ایک بار دیکھیں)۔ یعنی، YOLO فن تعمیر میں کوئی واضح "فور" لوپ نہیں ہیں، یہی وجہ ہے کہ نیٹ ورک تیزی سے کام کرتا ہے۔ مثال کے طور پر، یہ مشابہت: NumPy میں، میٹرکس کے ساتھ آپریشنز کرتے وقت، کوئی واضح "for" لوپ بھی نہیں ہوتے، جو NumPy میں C پروگرامنگ لینگویج کے ذریعے فن تعمیر کی نچلی سطح پر لاگو ہوتے ہیں۔ YOLO پہلے سے طے شدہ ونڈوز کا ایک گرڈ استعمال کرتا ہے۔ ایک ہی چیز کو متعدد بار متعین ہونے سے روکنے کے لیے، ونڈو اوورلیپ کوفیشینٹ (IoU) استعمال کیا جاتا ہے۔ Iچوراہا oدیکھ Union)۔ یہ فن تعمیر ایک وسیع رینج پر کام کرتا ہے اور اس میں اعلیٰ ہے۔ مضبوطی: ایک ماڈل کو تصویروں پر تربیت دی جا سکتی ہے لیکن پھر بھی ہاتھ سے تیار کردہ پینٹنگز پر اچھی کارکردگی کا مظاہرہ کیا جا سکتا ہے۔
  • ایس ایس ڈی (Sانجیل Sگرم ملٹی باکس Detector) - YOLO فن تعمیر کے سب سے کامیاب "ہیکس" استعمال کیے جاتے ہیں (مثال کے طور پر، غیر زیادہ سے زیادہ دباؤ) اور نیورل نیٹ ورک کو تیز اور درست طریقے سے کام کرنے کے لیے نئے شامل کیے جاتے ہیں۔ مخصوص خصوصیت: تصویری اہرام پر ونڈوز کے دیئے گئے گرڈ (ڈیفالٹ باکس) کا استعمال کرتے ہوئے اشیاء کو ایک ہی دوڑ میں الگ کرنا۔ تصویری اہرام کو مسلسل کنولوشن اور پولنگ آپریشنز (زیادہ سے زیادہ پولنگ آپریشن کے ساتھ، مقامی جہت کم ہو جاتی ہے) کے ذریعے کنولوشن ٹینسر میں انکوڈ کیا جاتا ہے۔ اس طرح، ایک نیٹ ورک رن میں بڑی اور چھوٹی دونوں اشیاء کا تعین کیا جاتا ہے۔
  • موبائل ایس ایس ڈی (موبائلNetV2+ ایس ایس ڈی) دو نیورل نیٹ ورک آرکیٹیکچرز کا مجموعہ ہے۔ پہلا نیٹ ورک MobileNetV2 تیزی سے کام کرتا ہے اور شناخت کی درستگی کو بڑھاتا ہے۔ VGG-2 کے بجائے MobileNetV16 استعمال کیا جاتا ہے، جو اصل میں استعمال ہوا تھا۔ اصل آرٹیکل. دوسرا SSD نیٹ ورک تصویر میں اشیاء کے مقام کا تعین کرتا ہے۔
  • SqueezeNet - ایک بہت چھوٹا لیکن درست نیورل نیٹ ورک۔ خود سے، یہ آبجیکٹ کا پتہ لگانے کا مسئلہ حل نہیں کرتا ہے۔ تاہم، یہ مختلف فن تعمیر کے ایک مجموعہ میں استعمال کیا جا سکتا ہے. اور موبائل آلات میں استعمال ہوتا ہے۔ مخصوص خصوصیت یہ ہے کہ ڈیٹا کو پہلے چار 1×1 کنوولیشنل فلٹرز میں کمپریس کیا جاتا ہے اور پھر اسے چار 1×1 اور چار 3×3 کنوولیشنل فلٹرز میں پھیلایا جاتا ہے۔ ڈیٹا کمپریشن-توسیع کی ایسی ہی ایک تکرار کو "فائر ماڈیول" کہا جاتا ہے۔
  • ڈیپ لیب (Deep Convolutional Nets کے ساتھ Semantic Image Segmentation) - تصویر میں اشیاء کی تقسیم۔ فن تعمیر کی ایک مخصوص خصوصیت پھیلی ہوئی کنوولوشن ہے، جو مقامی ریزولوشن کو محفوظ رکھتی ہے۔ اس کے بعد ایک گرافیکل امکانی ماڈل (مشروط بے ترتیب فیلڈ) کا استعمال کرتے ہوئے نتائج کے پوسٹ پروسیسنگ مرحلے کے بعد آتا ہے، جو آپ کو سیگمنٹیشن میں چھوٹے شور کو دور کرنے اور سیگمنٹڈ امیج کے معیار کو بہتر بنانے کی اجازت دیتا ہے۔ مضبوط نام "گرافیکل امکانی ماڈل" کے پیچھے ایک روایتی گاوسی فلٹر چھپا ہوا ہے، جس کا تخمینہ پانچ پوائنٹس ہے۔
  • ڈیوائس کا پتہ لگانے کی کوشش کی۔ ریفائن ڈیٹ (ایک ہی شاٹ تلاش کو بہترآبجیکٹ کے لیے نیورل نیٹ ورک تفصیلection)، لیکن میں زیادہ سمجھ نہیں پایا۔
  • میں نے یہ بھی دیکھا کہ "توجہ" ٹیکنالوجی کیسے کام کرتی ہے: ویڈیو 1, ویڈیو 2, ویڈیو 3. "توجہ" فن تعمیر کی ایک مخصوص خصوصیت تصویر میں زیادہ توجہ کے علاقوں کا خودکار انتخاب ہے (RoI، Rمثال of Interest) ایک نیورل نیٹ ورک کا استعمال کرتے ہوئے جسے Attention Unit کہتے ہیں۔ زیادہ توجہ کے علاقے باؤنڈنگ بکس کی طرح ہیں، لیکن ان کے برعکس، وہ تصویر میں طے نہیں ہوتے ہیں اور ان کی حدود دھندلی ہو سکتی ہیں۔ پھر، زیادہ توجہ والے علاقوں سے، علامات (خصوصیات) کو الگ تھلگ کر دیا جاتا ہے، جو فن تعمیر کے ساتھ بار بار آنے والے عصبی نیٹ ورکس کو "کھایا جاتا ہے" LSDM، GRU یا ونیلا RNN. بار بار چلنے والے عصبی نیٹ ورک ایک ترتیب میں خصوصیات کے تعلقات کا تجزیہ کرنے کے قابل ہیں۔ بار بار چلنے والے عصبی نیٹ ورک ابتدائی طور پر متن کو دوسری زبانوں میں ترجمہ کرنے کے لیے استعمال کیے جاتے تھے، اور اب ترجمہ کے لیے متن میں تصاویر и تصویر سے متن.

جیسا کہ ہم ان فن تعمیرات کو دریافت کرتے ہیں۔ میں سمجھ گیا کہ میں کچھ نہیں سمجھتا. اور ایسا نہیں ہے کہ میرے نیورل نیٹ ورک کو توجہ دینے کے طریقہ کار کے ساتھ مسائل ہیں۔ ان تمام فن تعمیرات کی تخلیق کسی بڑے ہیکاتھون کی طرح ہے، جہاں مصنفین ہیکس میں مقابلہ کرتے ہیں۔ ہیک سافٹ ویئر کے مشکل مسئلے کا فوری حل ہے۔ یعنی ان تمام فن تعمیرات کے درمیان کوئی واضح اور قابل فہم منطقی تعلق نہیں ہے۔ جو کچھ انہیں متحد کرتا ہے وہ سب سے کامیاب ہیکس کا ایک مجموعہ ہے جسے وہ ایک دوسرے سے ادھار لیتے ہیں، نیز سب کے لیے ایک مشترکہ بند لوپ کنولوشن آپریشن (غلطی بیک پروپیگیشن، بیک پروپیگیشن)۔ نہیں نظام سوچ! یہ واضح نہیں ہے کہ کیا تبدیل کیا جائے اور موجودہ کامیابیوں کو کیسے بہتر بنایا جائے۔

ہیکس کے درمیان منطقی تعلق کی کمی کے نتیجے میں، انہیں یاد رکھنا اور عملی طور پر لاگو کرنا انتہائی مشکل ہے۔ یہ بکھرا ہوا علم ہے۔ بہترین طور پر، چند دلچسپ اور غیر متوقع لمحات یاد رہ جاتے ہیں، لیکن جو کچھ سمجھ میں آتا ہے اور جو ناقابل فہم ہوتا ہے، وہ چند ہی دنوں میں یاد سے غائب ہو جاتا ہے۔ ایک ہفتے میں کم از کم فن تعمیر کا نام یاد کر لیں تو اچھا ہو گا۔ لیکن کئی گھنٹے اور یہاں تک کہ کام کے دن بھی آرٹیکل پڑھنے اور ریویو ویڈیوز دیکھنے میں گزر گئے!

اعصابی نیٹ ورکس۔ یہ سب کہاں جا رہا ہے؟

تصویر 2 - نیورل نیٹ ورکس کا چڑیا گھر

سائنسی مضامین کے زیادہ تر مصنفین، میری ذاتی رائے میں، اس بات کو یقینی بنانے کی ہر ممکن کوشش کرتے ہیں کہ یہ بکھرا ہوا علم بھی قاری کی سمجھ میں نہ آئے۔ لیکن فارمولوں کے ساتھ دس سطری جملوں میں حصہ لینے والے جملے جنہیں "پتلی ہوا سے باہر" لیا گیا ہے وہ ایک الگ مضمون کا موضوع ہے (مسئلہ شائع کریں یا ہلاک ہوجائیں).

اس وجہ سے، اعصابی نیٹ ورکس کا استعمال کرتے ہوئے معلومات کو منظم کرنے کی ضرورت ہے اور اس طرح، سمجھ اور حفظ کے معیار کو بڑھانا ہے۔ لہذا، مصنوعی عصبی نیٹ ورکس کی انفرادی ٹیکنالوجیز اور فن تعمیر کے تجزیہ کا بنیادی موضوع درج ذیل کام تھا: معلوم کریں کہ یہ سب کہاں جا رہا ہے، اور الگ سے کسی مخصوص عصبی نیٹ ورک کا آلہ نہیں۔

یہ سب کہاں جا رہا ہے؟ اہم نتائج:

  • پچھلے دو سالوں میں مشین لرننگ اسٹارٹ اپس کی تعداد تیزی سے گر گیا. ممکنہ وجہ: "عصبی نیٹ ورک اب کوئی نئی چیز نہیں ہیں۔"
  • کوئی بھی ایک سادہ مسئلہ کو حل کرنے کے لیے ورکنگ نیورل نیٹ ورک بنا سکتا ہے۔ ایسا کرنے کے لیے، "ماڈل چڑیا گھر" سے ایک ریڈی میڈ ماڈل لیں اور نیورل نیٹ ورک کی آخری پرت کو تربیت دیں (منتقلی سیکھنے) سے تیار شدہ ڈیٹا پر گوگل ڈیٹا سیٹ کی تلاش یا سے 25 ہزار کاگل ڈیٹا سیٹس مفت میں کلاؤڈ Jupyter نوٹ بک.
  • نیورل نیٹ ورک کے بڑے مینوفیکچررز نے تخلیق کرنا شروع کر دیا۔ "ماڈل چڑیا گھر" (ماڈل چڑیا گھر)۔ ان کا استعمال کرتے ہوئے آپ تیزی سے تجارتی ایپلی کیشن بنا سکتے ہیں: ٹی ایف حب TensorFlow کے لیے، ایم ایم ڈیٹیکشن PyTorch کے لیے، ڈیٹیکٹران Caffe2 کے لیے، chainer-modelzoo Chainer اور کے لئے دوسروں.
  • اعصابی نیٹ ورک کام کر رہے ہیں۔ حقیقی وقت (ریئل ٹائم) موبائل آلات پر۔ 10 سے 50 فریم فی سیکنڈ تک۔
  • فونز (TF Lite)، براؤزرز (TF.js) اور میں نیورل نیٹ ورکس کا استعمال گھریلو چیزیں (آئی او ٹی، Iانٹرنیٹ of Tہنگس)۔ خاص طور پر ان فونز میں جو پہلے ہی ہارڈ ویئر کی سطح پر نیورل نیٹ ورکس کو سپورٹ کرتے ہیں (نیورل ایکسلریٹر)۔
  • "ہر آلہ، لباس کی چیز، اور شاید کھانے میں بھی IP-v6 پتہ اور ایک دوسرے سے بات چیت کریں"- سیبسٹین تھرون.
  • مشین لرننگ پر اشاعتوں کی تعداد بڑھنے لگی ہے۔ مور کے قانون سے تجاوز (ہر دو سال بعد دوگنا) 2015 سے۔ ظاہر ہے، ہمیں مضامین کا تجزیہ کرنے کے لیے نیورل نیٹ ورکس کی ضرورت ہے۔
  • درج ذیل ٹیکنالوجیز مقبولیت حاصل کر رہی ہیں:
    • پی ٹورچ - مقبولیت تیزی سے بڑھ رہی ہے اور ایسا لگتا ہے کہ TensorFlow کو پیچھے چھوڑ رہا ہے۔
    • ہائپرپیرامیٹر کا خودکار انتخاب آٹو ایم ایل - مقبولیت آسانی سے بڑھ رہی ہے۔
    • درستگی میں بتدریج کمی اور حساب کی رفتار میں اضافہ: مبہم منطق، الگورتھم بڑھانا, غیر درست (تخمینی) حسابات، کوانٹائزیشن (جب نیورل نیٹ ورک کے وزن کو انٹیجرز اور کوانٹائزڈ میں تبدیل کیا جاتا ہے)، نیورل ایکسلریٹر۔
    • ترجمہ متن میں تصاویر и تصویر سے متن.
    • تخلیق ویڈیو سے XNUMXD اشیاء، اب حقیقی وقت میں۔
    • ڈی ایل کے بارے میں اہم بات یہ ہے کہ بہت زیادہ ڈیٹا موجود ہے، لیکن اسے جمع کرنا اور لیبل لگانا آسان نہیں ہے۔ لہذا، مارک اپ آٹومیشن ترقی کر رہا ہے (خودکار تشریح) نیورل نیٹ ورکس کا استعمال کرتے ہوئے نیورل نیٹ ورکس کے لیے۔
  • نیورل نیٹ ورکس کے ساتھ، کمپیوٹر سائنس اچانک بن گیا۔ تجرباتی سائنس اور اٹھی تولیدی بحران.
  • آئی ٹی پیسہ اور نیورل نیٹ ورکس کی مقبولیت بیک وقت سامنے آئی جب کمپیوٹنگ مارکیٹ ویلیو بن گئی۔ معیشت سونے اور کرنسی کی معیشت سے بدل رہی ہے۔ گولڈ کرنسی کمپیوٹنگ. پر میرا مضمون دیکھیں اقتصادیات اور آئی ٹی پیسے کے ظاہر ہونے کی وجہ۔

آہستہ آہستہ ایک نیا نمودار ہوتا ہے۔ ML/DL پروگرامنگ کا طریقہ کار (مشین لرننگ اور ڈیپ لرننگ)، جو تربیت یافتہ نیورل نیٹ ورک ماڈلز کے سیٹ کے طور پر پروگرام کی نمائندگی کرنے پر مبنی ہے۔

اعصابی نیٹ ورکس۔ یہ سب کہاں جا رہا ہے؟

شکل 3 - ML/DL ایک نئے پروگرامنگ طریقہ کار کے طور پر

تاہم، یہ کبھی ظاہر نہیں ہوا "نیورل نیٹ ورک تھیوری"جس کے اندر آپ سوچ سکتے ہیں اور منظم طریقے سے کام کر سکتے ہیں۔ جسے اب "تھیوری" کہا جاتا ہے وہ دراصل تجرباتی، ہیورسٹک الگورتھم ہے۔

میرے اور دیگر وسائل کے لنکس:

آپ کا شکریہ!

ماخذ: www.habr.com

نیا تبصرہ شامل کریں