تتطور الشبكات العصبية في رؤية الكمبيوتر بنشاط، ولا تزال العديد من المشكلات بعيدة عن الحل. لكي تكون على أحدث التوجهات في مجال عملك، ما عليك سوى متابعة الأشخاص المؤثرين على Twitter وقراءة المقالات ذات الصلة على arXiv.org. لكن أتيحت لنا الفرصة للذهاب إلى المؤتمر الدولي للرؤية الحاسوبية (ICCV) 2019. ويُعقد هذا العام في كوريا الجنوبية. والآن نريد أن نشارك قراء حبر ما رأيناه وتعلمناه.
كان هناك الكثير منا من Yandex: جاء مطورو السيارات ذاتية القيادة والباحثون وأولئك الذين يتعاملون مع مهام السيرة الذاتية في الخدمات. لكننا نريد الآن تقديم وجهة نظر ذاتية إلى حد ما لفريقنا - مختبر ذكاء الآلة (ياندكس ميلاب). ربما نظر الآخرون إلى المؤتمر من زاويتهم الخاصة.
ماذا يفعل المختبر؟نقوم بمشاريع تجريبية تتعلق بتوليد الصور والموسيقى لأغراض الترفيه. نحن مهتمون بشكل خاص بالشبكات العصبية التي تسمح لك بتغيير المحتوى من المستخدم (بالنسبة للصور، تسمى هذه المهمة معالجة الصور).
هناك الكثير من المؤتمرات العلمية، ولكن أبرزها هو ما يسمى بمؤتمرات A*، حيث يتم عادةً نشر المقالات حول التقنيات الأكثر إثارة للاهتمام والأكثر أهمية. لا توجد قائمة دقيقة لمؤتمرات A*، إليك قائمة تقريبية وغير كاملة: NeurIPS (NIPS سابقًا)، ICML، SIGIR، WWW، WSDM، KDD، ACL، CVPR، ICCV، ECCV. الثلاثة الأخيرة متخصصة في موضوع السيرة الذاتية.
لمحة سريعة عن ICCV: الملصقات والبرامج التعليمية وورش العمل والمنصات
تلقى المؤتمر 1075 ورقة، وكان هناك 7500 مشارك، وجاء 103 أشخاص من روسيا، وكانت هناك مقالات من موظفي ياندكس، وسكولتيك، ومركز سامسونج للذكاء الاصطناعي في موسكو، وجامعة سامارا. هذا العام، لم يقم العديد من كبار الباحثين بزيارة ICCV، ولكن، على سبيل المثال، Alexey (Alyosha) Efros، الذي يجذب دائمًا الكثير من الناس:
إحصائيات
في جميع هذه المؤتمرات، يتم تقديم المقالات في شكل ملصقات (
إليكم بعض الأعمال من روسيا
من خلال البرامج التعليمية، يمكنك التعمق في مجال موضوعي معين؛ فهو يذكرنا بمحاضرة في إحدى الجامعات. يقرأها شخص واحد، عادة دون الحديث عن أعمال محددة. مثال على برنامج تعليمي رائع (
في ورش العمل، على العكس من ذلك، يتحدثون عن المقالات. عادة ما تكون هذه أعمال في موضوع ضيق، أو قصص من رؤساء المختبرات حول أحدث أعمال الطلاب، أو المقالات التي لم يتم قبولها في المؤتمر الرئيسي.
الشركات الراعية تأتي إلى ICCV بأجنحة. وفي هذا العام، حضرت شركات جوجل وفيسبوك وأمازون والعديد من الشركات العالمية الأخرى، بالإضافة إلى عدد كبير من الشركات الناشئة - الكورية والصينية. كان هناك بشكل خاص العديد من الشركات الناشئة المتخصصة في وضع علامات على البيانات. هناك عروض في المدرجات، يمكنك أخذ البضائع وطرح الأسئلة. لأغراض الصيد، تقيم الشركات الراعية حفلات. يمكنك الدخول فيها إذا أقنعت مسؤولي التوظيف أنك مهتم وأنه من المحتمل أن تتمكن من اجتياز المقابلات. إذا قمت بنشر مقال (أو علاوة على ذلك، قدمته)، أو بدأت أو على وشك الانتهاء من درجة الدكتوراه، فهذه ميزة إضافية، ولكن في بعض الأحيان يمكنك التفاوض في المنصة من خلال طرح أسئلة مثيرة للاهتمام على مهندسي الشركة.
اتجاهات
يتيح لك المؤتمر إلقاء نظرة على مجال السيرة الذاتية بأكمله. من خلال عدد الملصقات حول موضوع معين، يمكنك تقييم مدى أهمية الموضوع. تقترح بعض الاستنتاجات نفسها بناءً على الكلمات الرئيسية:
صفر طلقة، طلقة واحدة، طلقات قليلة، إشراف ذاتي وشبه إشراف: أساليب جديدة للمهام التي تمت دراستها منذ فترة طويلة
يتعلم الناس كيفية استخدام البيانات بشكل أكثر فعالية. على سبيل المثال، في
3D و 360 درجة
تتطلب المشكلات التي تم حلها في الغالب فيما يتعلق بالصور (التجزئة والكشف) إجراء بحث إضافي للنماذج ثلاثية الأبعاد ومقاطع الفيديو البانورامية. لقد رأينا العديد من المقالات حول تحويل RGB وRGB-D إلى ثلاثي الأبعاد. يمكن حل بعض المشكلات، مثل تقدير وضعية الإنسان، بشكل طبيعي أكثر عن طريق الانتقال إلى النماذج ثلاثية الأبعاد. ولكن لا يوجد إجماع حتى الآن حول كيفية تمثيل النماذج ثلاثية الأبعاد بالضبط - في شكل شبكة أو سحابة نقطية أو وحدات فوكسل أو SDF. إليك خيار آخر:
في الصور البانورامية، تتطور التلافيفات على الكرة بنشاط (انظر.
كشف الوضع والتنبؤ بحركة الإنسان
لقد تم بالفعل تحقيق تقدم في اكتشاف الوضع ثنائي الأبعاد - والآن تحول التركيز نحو العمل باستخدام كاميرات متعددة وبتقنية ثلاثية الأبعاد. على سبيل المثال، يمكنك أيضًا اكتشاف هيكل عظمي من خلال الحائط من خلال تتبع التغييرات في إشارة Wi-Fi أثناء مرورها عبر جسم الإنسان.
لقد تم إنجاز الكثير من العمل في مجال اكتشاف نقاط المفاتيح اليدوية. ظهرت مجموعات بيانات جديدة، بما في ذلك تلك المستندة إلى مقاطع فيديو للحوارات بين شخصين - يمكنك الآن التنبؤ بإيماءات اليد من الصوت أو نص المحادثة! تم إحراز نفس التقدم في مهام تتبع العين (تقدير النظرة).
يمكن للمرء أيضًا تحديد مجموعة كبيرة من الأعمال المتعلقة بالتنبؤ بحركة الإنسان (على سبيل المثال،
التلاعب بالأشخاص في الصور ومقاطع الفيديو وغرف القياس الافتراضية
الاتجاه الرئيسي هو تغيير صور الوجه وفقًا لمعايير قابلة للتفسير. الأفكار: التزييف العميق استنادًا إلى صورة واحدة، وتغيير التعبير بناءً على عرض الوجه (
توليد من الرسومات / الرسوم البيانية
تطور فكرة "السماح للشبكة بتوليد شيء ما بناءً على الخبرة السابقة" أصبح فكرة أخرى: "دعونا نظهر للشبكة الخيار الذي يهمنا".
تجمع إحدى مقالات Adobe البالغ عددها 25 مقالة لـ ICCV بين شبكتي GAN: إحداهما تكمل الرسم التخطيطي للمستخدم، والأخرى تولد صورة واقعية من الرسم (
في السابق، لم تكن هناك حاجة إلى الرسوم البيانية في توليد الصور، ولكن الآن أصبحت بمثابة حاوية للمعرفة حول المشهد. كما فاز المقال بجائزة أفضل ورقة شرفية بناءً على نتائج ICCV
إعادة تحديد هوية الأشخاص والسيارات، وحساب حجم الحشد (!)
تم تخصيص العديد من المقالات لتتبع الأشخاص وإعادة تحديد هوية الأشخاص والآلات. ولكن ما فاجأنا هو مجموعة من المقالات حول إحصاء الحشود، وكلها من الصين.
ملصقات
لكن فيسبوك، على العكس من ذلك، يخفي هوية الصورة. وهي تفعل ذلك بطريقة مثيرة للاهتمام: فهي تدرب الشبكة العصبية على إنشاء وجه بدون تفاصيل فريدة - متشابهة، ولكنها ليست متشابهة إلى حد كبير بحيث يمكن التعرف عليها بشكل صحيح من خلال أنظمة التعرف على الوجوه.
الحماية ضد الهجمات المعادية
مع تطور تطبيقات رؤية الكمبيوتر في العالم الحقيقي (في السيارات ذاتية القيادة، وفي التعرف على الوجه)، تطرح مسألة موثوقية هذه الأنظمة بشكل متزايد. لاستخدام السيرة الذاتية بشكل كامل، يجب عليك التأكد من أن النظام مقاوم للهجمات المعادية - ولهذا السبب لم تكن المقالات المتعلقة بالحماية منها أقل من المقالات المتعلقة بالهجمات نفسها. لقد كان هناك الكثير من العمل على شرح تنبؤات الشبكة (خريطة الأهمية) وقياس الثقة في النتيجة.
المهام مجتمعة
في معظم المهام التي لها هدف واحد، يتم استنفاد إمكانيات تحسين الجودة عمليًا؛ وأحد الاتجاهات الجديدة لزيادة الجودة هو تعليم الشبكات العصبية كيفية حل العديد من المشكلات المماثلة في وقت واحد. أمثلة:
- التنبؤ بالعمل + التنبؤ بالتدفق البصري،
— عرض فيديو + عرض لغة (
-
هناك أيضًا مقالات حول التجزئة وتحديد الوضعية وإعادة تحديد هوية الحيوانات!
يسلط الضوء
كانت جميع المقالات تقريبًا معروفة مسبقًا، وكان النص متاحًا على موقع arXiv.org. لذلك، فإن عرض أعمال مثل الجميع يرقصون الآن، FUNIT، Image2StyleGAN يبدو غريبا إلى حد ما - هذه أعمال مفيدة للغاية، ولكنها ليست جديدة. يبدو أن العملية الكلاسيكية للمنشورات العلمية تنهار هنا - فالعلم يتحرك بسرعة كبيرة.
من الصعب جدًا تحديد أفضل الأعمال - فهناك الكثير منها والموضوعات مختلفة. تلقى العديد من المقالات
نريد تسليط الضوء على الأعمال المثيرة للاهتمام من حيث معالجة الصور، لأن هذا هو موضوعنا. لقد تبين أنها جديدة تمامًا ومثيرة للاهتمام بالنسبة لنا (نحن لا نتظاهر بالموضوعية).
SinGAN (جائزة أفضل ورقة) وInGAN
سينجان:
إنجان:
تطوير الفكرة المسبقة للصورة العميقة من ديمتري أوليانوف وأندريا فيدالدي وفيكتور ليمبيتسكي. بدلاً من تدريب شبكة GAN على مجموعة بيانات، تتعلم الشبكات من أجزاء من الصورة نفسها لتتذكر الإحصائيات الموجودة بداخلها. تتيح لك الشبكة المدربة تحرير الصور وتحريكها (SinGAN) أو إنشاء صور جديدة بأي حجم من نسيج الصورة الأصلية، مع الحفاظ على البنية المحلية (InGAN).
سينجان:
إنجان:
رؤية ما لا يمكن لـ GAN توليده
غالبًا ما تأخذ الشبكات العصبية التي تولد الصور متجهًا للضوضاء العشوائية كمدخلات. في شبكة مدربة، تشكل العديد من متجهات الإدخال مساحة، وحركات صغيرة تؤدي إلى تغييرات صغيرة في الصورة. باستخدام التحسين، يمكنك حل المشكلة العكسية: العثور على ناقل إدخال مناسب لصورة من العالم الحقيقي. يوضح المؤلف أنه يكاد يكون من المستحيل العثور على صورة مطابقة تمامًا في الشبكة العصبية. لا يتم إنشاء بعض الكائنات الموجودة في الصورة (على ما يبدو بسبب التباين الكبير لهذه الكائنات).
يفترض المؤلف أن GAN لا يغطي كامل مساحة الصور، ولكن فقط بعض المجموعات الفرعية المحشوة بالثقوب، مثل الجبن. عندما نحاول العثور على صور من العالم الحقيقي فيه، سنفشل دائمًا، لأن GAN لا يزال ينشئ صورًا غير حقيقية تمامًا. ولا يمكن التغلب على الاختلافات بين الصور الحقيقية والمولدة إلا عن طريق تغيير أوزان الشبكة، أي إعادة تدريبها على صورة معينة.
عندما يتم تدريب الشبكة بالإضافة إلى ذلك على صورة معينة، يمكنك تجربة العديد من التلاعب بهذه الصورة. في المثال أدناه، تمت إضافة نافذة إلى الصورة، بالإضافة إلى ذلك، قامت الشبكة بإنشاء انعكاسات على وحدة المطبخ. وهذا يعني أن الشبكة، حتى بعد التدريب الإضافي على التصوير الفوتوغرافي، لم تفقد القدرة على رؤية الاتصال بين الأشياء في المشهد.
GANalyze: نحو تعريفات مرئية لخصائص الصورة المعرفية
باستخدام النهج المتبع في هذا العمل، يمكنك تصور وتحليل ما تعلمته الشبكة العصبية. يقترح المؤلفون تدريب شبكة GAN على إنشاء صور تقوم الشبكة بإنشاء تنبؤات محددة لها. استخدمت المقالة عدة شبكات كأمثلة، بما في ذلك MemNet، التي تتنبأ بتذكر الصور. اتضح أنه من أجل تذكر أفضل، يجب أن يكون الكائن الموجود في الصورة:
- يكون أقرب إلى المركز
- أن يكون لها شكل دائري أو مربع أكثر وبنية بسيطة،
- أن تكون على خلفية موحدة،
- تحتوي على عيون معبرة (على الأقل بالنسبة لصور الكلاب)،
- تكون أكثر إشراقًا، وأكثر تشبعًا، وفي بعض الحالات، أكثر احمرارًا.
Liquid Warping GAN: إطار موحد لتقليد الحركة البشرية ونقل المظهر وتوليف العرض الجديد
خط أنابيب لتوليد صور للأشخاص، صورة واحدة في كل مرة. يعرض المؤلفون أمثلة ناجحة لنقل حركة شخص إلى آخر، ونقل الملابس بين الأشخاص، وتوليد زوايا جديدة للشخص - كل ذلك من صورة فوتوغرافية واحدة. على عكس الأعمال السابقة، نحن هنا لا نستخدم النقاط الرئيسية في ثنائية الأبعاد (الوضعية)، بل نستخدم شبكة ثلاثية الأبعاد من الجسم (الوضعية + الشكل) لتهيئة الظروف. اكتشف المؤلفون أيضًا كيفية نقل المعلومات من الصورة الأصلية إلى الصورة التي تم إنشاؤها (Liquid Warping Block). تبدو النتائج لائقة، ولكن دقة الصورة الناتجة هي 2 × 3 فقط. للمقارنة، فإن vid256vid، الذي ظهر قبل عام، قادر على الإنتاج بدقة 256 × 2، ولكنه يتطلب ما يصل إلى 2048 دقائق من تسجيل الفيديو كمجموعة بيانات.
FSGAN: تبديل الوجه اللاأدرى للموضوع وإعادة تمثيله
في البداية يبدو أنه لا يوجد شيء غير عادي: تزييف عميق بجودة عادية إلى حد ما. لكن الإنجاز الرئيسي للعمل هو استبدال الوجوه من صورة واحدة. على عكس الأعمال السابقة، كان التدريب مطلوبًا على العديد من الصور الفوتوغرافية لشخص معين. اتضح أن خط الأنابيب كان مرهقًا (إعادة التمثيل والتجزئة، واستيفاء العرض، والرسم الداخلي، والمزج) ومع وجود الكثير من الاختراقات التقنية، ولكن النتيجة تستحق العناء.
اكتشاف ما هو غير متوقع عن طريق إعادة تركيب الصورة
كيف يمكن للطائرة بدون طيار أن تفهم أن شيئًا ما قد ظهر فجأة أمامها ولا يندرج ضمن أي فئة تجزئة دلالية؟ هناك عدة طرق، لكن المؤلفين يقترحون خوارزمية جديدة وبديهية تعمل بشكل أفضل من سابقاتها. يتم توقع التجزئة الدلالية من صورة طريق الإدخال. ويتم تغذيتها كمدخل إلى GAN (pix2pixHD)، الذي يحاول استعادة الصورة الأصلية من الخريطة الدلالية فقط. ستختلف الحالات الشاذة التي لا تقع في أي من الأجزاء بشكل كبير في الإخراج والصورة التي تم إنشاؤها. يتم بعد ذلك إدخال الصور الثلاث (الأصلية، والمجزأة، والمعاد بناؤها) في شبكة أخرى تتنبأ بالحالات الشاذة. تم إنشاء مجموعة البيانات الخاصة بهذا من مجموعة بيانات Cityscapes المعروفة، مع تغيير الفئات بشكل عشوائي في التجزئة الدلالية. ومن المثير للاهتمام، في هذا الإعداد، أن الكلب الذي يقف في منتصف الطريق، ولكنه مقسم بشكل صحيح (مما يعني أن هناك فئة له)، ليس أمرًا شاذًا، حيث كان النظام قادرًا على التعرف عليه.
اختتام
قبل المؤتمر، من المهم أن تعرف ما هي اهتماماتك العلمية، وما هي العروض التقديمية التي ترغب في حضورها، ومع من تتحدث. ثم سيكون كل شيء أكثر إنتاجية.
ICCV هو، أولاً وقبل كل شيء، التواصل. أنت تدرك أن هناك معاهد عليا وأقسام علمية عليا، وتبدأ في فهم ذلك، والتعرف على الناس. ويمكنك قراءة المقالات على arXiv - وبالمناسبة، من الرائع جدًا ألا تضطر إلى الذهاب إلى أي مكان للحصول على المعرفة.
بالإضافة إلى ذلك، يمكنك في المؤتمر الغوص بعمق في مواضيع ليست قريبة منك ورؤية الاتجاهات. حسنًا، اكتب قائمة بالمقالات التي تريد قراءتها. إذا كنت طالبًا، فهذه فرصة لك لمقابلة معلم محتمل، وإذا كنت من الصناعة، فمع صاحب عمل جديد، وإذا كنت شركة، فإظهار نفسك.
اشترك في
المصدر: www.habr.com