الشبكات العصبية. إلى أين يتجه كل هذا

تتكون المقالة من جزأين:

  1. وصف موجز لبعض بنى الشبكات لاكتشاف الكائنات في الصورة وتجزئة الصورة مع روابط الموارد الأكثر فهمًا بالنسبة لي. حاولت اختيار شرح بالفيديو ويفضل أن يكون باللغة الروسية.
  2. الجزء الثاني يتمثل في محاولة فهم اتجاه تطوير معماريات الشبكة العصبية. والتقنيات القائمة عليها.

الشبكات العصبية. إلى أين يتجه كل هذا

الشكل 1 - فهم بنية الشبكات العصبية ليس بالأمر السهل

بدأ كل شيء من خلال إنشاء تطبيقين تجريبيين لتصنيف الكائنات واكتشافها على هاتف android:

  • العرض التوضيحي الخلفيعند معالجة البيانات على الخادم ونقلها إلى الهاتف. تصنيف الصور لثلاثة أنواع من الدببة: البني والأسود والدمى.
  • عرض الواجهة الأماميةعند معالجة البيانات على الهاتف نفسه. الكشف عن الكائنات من ثلاثة أنواع: البندق والتين والتمر.

هناك فرق بين مهام تصنيف الصورة واكتشاف الكائن في الصورة و تقطيع الصورة. لذلك ، أصبح من الضروري معرفة معماريات الشبكة العصبية التي تكتشف الكائنات في الصور وأي منها يمكن تقسيمها. لقد وجدت الأمثلة التالية للهندسة المعمارية التي تحتوي على أكثر ارتباطات مفهومة إلى الموارد بالنسبة لي:

  • سلسلة من البنى المبنية على R-CNN (Rمع Cتطوير Neural Nميزات الشبكات): R-CNN و Fast R-CNN و أسرع R-CNN, قناع R-CNN. لاكتشاف كائن في صورة باستخدام آلية شبكة اقتراح المنطقة (RPN) ، يتم تخصيص المربعات المحيطة. في البداية ، تم استخدام آلية البحث الانتقائي الأبطأ بدلاً من RPN. ثم يتم تغذية المناطق المحدودة المختارة بمدخلات الشبكة العصبية التقليدية من أجل التصنيف. تحتوي بنية R-CNN على حلقات "for" واضحة عبر مناطق محدودة ، يصل إجمالي تشغيلها إلى 2000 مرة عبر شبكة AlexNet الداخلية. تؤدي حلقات "for" الصريحة إلى إبطاء سرعة معالجة الصور. يتناقص عدد الحلقات الواضحة ، التي يتم تشغيلها عبر الشبكة العصبية الداخلية ، مع كل إصدار جديد من البنية ، ويتم إجراء العشرات من التغييرات الأخرى لزيادة السرعة واستبدال مهمة اكتشاف الكائن بتجزئة الكائن في Mask R-CNN.
  • YOLO (You Oنلي LOOK Once) هي أول شبكة عصبية تتعرف على الكائنات في الوقت الفعلي على الأجهزة المحمولة. السمة المميزة: تمييز الأشياء في جولة واحدة (يكفي النظر إليها مرة واحدة). أي أنه لا توجد حلقات "for" واضحة في بنية YOLO ، مما يجعل الشبكة سريعة. على سبيل المثال ، هذا القياس: في NumPy ، أثناء العمليات باستخدام المصفوفات ، لا توجد أيضًا حلقات "for" صريحة ، والتي يتم تنفيذها في NumPy على مستويات أدنى من البنية من خلال لغة البرمجة C. يستخدم YOLO شبكة من النوافذ المحددة مسبقًا. لمنع تحديد نفس الكائن عدة مرات ، فإن عامل تداخل النافذة (IoU ، Iتقاطع oالنسخة Uنيون). هذه العمارة تعمل في نطاق واسع ولها ارتفاع المتانة: يمكن تدريب النموذج على الصور الفوتوغرافية ، ولكن لا يزال يؤدي أداءً جيدًا على اللوحات المرسومة يدويًا.
  • SSD (Sإنجل SHot MultiBox Detector) - يتم استخدام "الاختراقات" الأكثر نجاحًا في بنية YOLO (على سبيل المثال ، عدم الحد الأقصى للقمع) ويتم إضافة اختراقات جديدة لجعل الشبكة العصبية تعمل بشكل أسرع وأكثر دقة. السمة المميزة: تمييز الكائنات في جولة واحدة باستخدام شبكة معينة من النوافذ (المربع الافتراضي) على هرم الصور. يتم ترميز هرم الصور في موتر الالتواء أثناء عمليات الالتواء والتجميع المتتالية (أثناء عملية التجميع القصوى ، ينخفض ​​البعد المكاني). بهذه الطريقة ، يتم تحديد الكائنات الكبيرة والصغيرة في عملية واحدة للشبكة.
  • SSD المحمول (الجوالنتف2 + SSD) عبارة عن مزيج من بنيتين للشبكة العصبية. الشبكة الأولى موبايل نتV2 يعمل بسرعة ويزيد من دقة التعرف. يحل MobileNetV2 محل VGG-16 ، والذي كان يستخدم في الأصل في المقالة الأصلية. تحدد شبكة SSD الثانية موقع الكائنات في الصورة.
  • سكويز نت - شبكة عصبية صغيرة جدًا ولكنها دقيقة. في حد ذاته ، لا يحل مشكلة اكتشاف الكائن. ومع ذلك ، يمكن استخدامه مع مجموعة من البنى المختلفة. وأن تستخدم في الأجهزة المحمولة. الميزة المميزة هي أن البيانات يتم ضغطها أولاً إلى أربعة مرشحات التفاف 1x1 ثم يتم توسيعها إلى أربعة مرشحات التفاف 1x1 وأربعة 3x3. يُطلق على أحد عمليات تكرار توسيع ضغط البيانات هذه "وحدة Fire Module".
  • ديب لاب (تجزئة الصورة الدلالية باستخدام شبكات تلافيفية عميقة) - تجزئة الكائنات في الصورة. السمة المميزة للهندسة المعمارية هي الالتواء المتناثر (الالتواء المتوسع) ، والذي يحافظ على الدقة المكانية. يتبع ذلك مرحلة المعالجة اللاحقة للنتائج باستخدام نموذج احتمالي رسومي (حقل عشوائي مشروط) ، والذي يسمح لك بإزالة الضوضاء الصغيرة في التجزئة وتحسين جودة الصورة المجزأة. وراء الاسم الهائل "نموذج احتمالي رسومي" يوجد مرشح غاوسي المعتاد ، والذي يتم تقريبه بخمس نقاط.
  • حاولت معرفة الجهاز صقل (طلقة واحدة صقلمنة الشبكة العصبية للكائن ديتقسم) ، ولكن فهم القليل.
  • نظرت أيضًا في كيفية عمل تقنية الانتباه: فيديو 1, فيديو 2, فيديو 3. السمة المميزة لبنية "الاهتمام" هي الاختيار التلقائي للمناطق التي تحظى باهتمام متزايد في الصورة (RoI، Regions of Interest) باستخدام شبكة عصبية تسمى وحدة الانتباه. تشبه النقاط الفعالة المربعات المحيطة ، ولكن على عكسها ، لم يتم إصلاحها في الصورة وقد تحتوي على حدود ضبابية. بعد ذلك ، يتم تمييز العلامات (الميزات) عن مناطق الاهتمام المتزايد ، والتي يتم "تغذيتها" للشبكات العصبية المتكررة ذات البنى LSDM أو GRU أو Vanilla RNN. الشبكات العصبية المتكررة قادرة على تحليل علاقة السمات في تسلسل. تم استخدام الشبكات العصبية المتكررة في الأصل لترجمة النص إلى لغات أخرى ، والآن للترجمة الصور إلى نص и نص إلى صورة.

كما يتم استكشاف هذه البنى أدركت أنني لا أفهم شيئًا. وليس الأمر أن شبكتي العصبية لديها مشاكل في آلية الانتباه. إن إنشاء كل هذه الأبنية يشبه نوعًا من الهاكاثون الضخم حيث يتنافس المؤلفون في الاختراقات. الاختراق هو حل سريع لمشكلة برمجية صعبة. أي أنه لا توجد علاقة منطقية واضحة ومفهومة بين كل هذه البنى. كل ما يوحدهم هو مجموعة من أنجح الاختراقات التي يقترضونها من بعضهم البعض ، بالإضافة إلى شيء مشترك عملية التفاف ردود الفعل (الانتشار العكسي للخطأ ، backpropagation). لا التفكير المنهجي! ليس من الواضح ما الذي يجب تغييره وكيفية تحسين الإنجازات الحالية.

نتيجة لعدم وجود اتصال منطقي بين الاختراقات ، من الصعب للغاية تذكرها ووضعها موضع التنفيذ. هذه معرفة مجزأة. في أحسن الأحوال ، يتم تذكر بعض اللحظات الممتعة وغير المتوقعة ، لكن معظم الأشياء المفهومة وغير المفهومة تختفي من الذاكرة بعد أيام قليلة. سيكون من الجيد أن يتم تذكر اسم العمارة في غضون أسبوع على الأقل. ولكن تم قضاء عدة ساعات وحتى أيام من وقت العمل في قراءة المقالات ومشاهدة مقاطع الفيديو العامة!

الشبكات العصبية. إلى أين يتجه كل هذا

الشكل 2 - حديقة حيوانات الشبكات العصبية

معظم مؤلفي المقالات العلمية ، في رأيي الشخصي ، يبذلون قصارى جهدهم حتى لا يفهم القارئ حتى هذه المعرفة المجزأة. لكن العبارات التشاركية في جمل من عشرة أسطر مع صيغ مأخوذة "من السقف" هي موضوع لمقال منفصل (المشكلة نشر أو يهلك).

لهذا السبب ، أصبح من الضروري تنظيم المعلومات من خلال الشبكات العصبية ، وبالتالي زيادة جودة الفهم والحفظ. لذلك ، كان الموضوع الرئيسي لتحليل التقنيات الفردية وبنيات الشبكات العصبية الاصطناعية هو المهمة التالية: اكتشف أين يذهب كل شيء، وليس جهاز شبكة عصبية معينة بشكل منفصل.

إلى أين يتجه كل هذا. نتائج رئيسية:

  • عدد الشركات الناشئة في مجال تعلُّم الآلة في العامين الماضيين انخفض بشكل حاد. السبب المحتمل: "الشبكات العصبية لم تعد شيئًا جديدًا".
  • سيتمكن الجميع من إنشاء شبكة عصبية عاملة لحل مشكلة بسيطة. للقيام بذلك ، سيأخذ نموذجًا نهائيًا من "نموذج حديقة الحيوان" (نموذج حديقة الحيوان) وتدريب الطبقة الأخيرة من الشبكة العصبية (نقل التعلم) على بيانات جاهزة من بحث Google Dataset أو من 25 ألف مجموعة بيانات Kaggle في الحرة جوبيتر نوتبوك كلاود.
  • بدأت الشركات المصنعة الرئيسية للشبكات العصبية في الإنشاء "نموذج حدائق الحيوان" (حديقة حيوانات نموذجية). باستخدامهم ، يمكنك تقديم طلب تجاري بسرعة: مركز T.F لـ TensorFlow ، MMDetection لبيتورش ، ديكيترون للقهوة 2، سلسلر-modelzoo لتشاينر و آخرون.
  • تعمل الشبكات العصبية فيها الوقت الحقيقي (في الوقت الفعلي) على الأجهزة المحمولة. من 10 إلى 50 إطارًا في الثانية.
  • استخدام الشبكات العصبية في الهواتف (TF Lite) والمتصفحات (TF.js) وفي الأدوات المنزلية (إنترنت الأشياء ، Internet of Tهينجس). خاصة في الهواتف التي تدعم بالفعل الشبكات العصبية على مستوى الأجهزة (المسرعات العصبية).
  • "كل جهاز ، ملابس ، وربما حتى طعام عنوان IP v6 والتواصل مع بعضنا البعض " سيباستيان ثرون.
  • بدأ النمو في عدد المنشورات حول التعلم الآلي تتجاوز قانون مور (يتضاعف كل سنتين) منذ 2015. من الواضح أننا بحاجة إلى شبكات عصبية لتحليل المقالات.
  • التقنيات التالية تكتسب شعبية:
    • PyTorch - تتزايد الشعبية بسرعة ويبدو أنها تتفوق على TensorFlow.
    • التحديد التلقائي للمعلمات الفائقة AutoML - شعبية تنمو ببطء.
    • انخفاض تدريجي في الدقة وزيادة سرعة الحساب: المنطق الضبابيالخوارزميات التعزيز، حسابات غير دقيقة (تقريبية) ، تكميم (عندما يتم تحويل أوزان الشبكة العصبية إلى أعداد صحيحة ومكممة) ، المسرّعات العصبية.
    • الترجمة الصور إلى نص и نص إلى صورة.
    • خلق كائنات ثلاثية الأبعاد بالفيديوالآن في الوقت الفعلي.
    • الشيء الرئيسي في DL هو وجود الكثير من البيانات ، ولكن ليس من السهل جمعها وتسميتها. لذلك ، يتم تطوير أتمتة العلامات (التعليق التوضيحي الآلي) للشبكات العصبية التي تستخدم الشبكات العصبية.
  • مع الشبكات العصبية ، أصبحت علوم الكمبيوتر فجأة العلوم التجريبية ونهض أزمة التكاثر.
  • نشأت أموال تكنولوجيا المعلومات وشعبية الشبكات العصبية في نفس الوقت عندما أصبحت الحوسبة قيمة سوقية. يصبح الاقتصاد من تبادل الذهب حوسبة العملات الذهبية. انظر مقالتي على علم البيئة وسبب ظهور أموال تكنولوجيا المعلومات.

تدريجيًا جديد منهجية برمجة ML / DL (التعلم الآلي والتعلم العميق) ، والذي يعتمد على عرض البرنامج كمجموعة من نماذج الشبكة العصبية المدربة.

الشبكات العصبية. إلى أين يتجه كل هذا

الشكل 3 - ML / DL كمنهجية برمجة جديدة

ومع ذلك ، لم تظهر "نظرية الشبكة العصبية"يمكنك من خلالها التفكير والعمل بشكل منهجي. ما يسمى الآن "النظرية" هو في الواقع خوارزميات تجريبية.

روابط لمصدري وليس فقط مواردي:

شكرا لك!

المصدر: www.habr.com

إضافة تعليق