الشبكات العصبية التلافيفية (CNN) ، المستوحاة من العمليات البيولوجية في القشرة البصرية للإنسان ، مناسبة تمامًا لمهام مثل التعرف على الوجوه والأشياء ، لكن تحسين دقتها يتطلب ضبطًا شاقًا ودقيقًا. لهذا السبب يستكشف العلماء في Google AI Research نماذج جديدة من شأنها "قياس" شبكات CNN بطريقة "أكثر تنظيماً". قاموا بنشر نتيجة عملهم في
كتب مهندس البرمجيات الداخلي Mingxing Tan وعالمًا رئيسيًا في Google AI: "من الممارسات الشائعة لنماذج القياس زيادة عمق أو عرض CNN بشكل تعسفي ، بالإضافة إلى استخدام دقة أعلى لصورة الإدخال للتدريب والتقييم" كووك لي (Quoc V .le). "على عكس الأساليب التقليدية التي تقيس بشكل تعسفي معلمات الشبكة مثل العرض والعمق والدقة الواردة ، فإن طريقتنا تقيس بشكل موحد كل بُعد بمجموعة ثابتة من عوامل القياس."
لزيادة تحسين الأداء ، دعا الباحثون إلى استخدام شبكة أساسية جديدة ، وهي شبكة المحمول المقلوبة التفاف عنق الزجاجة (MBConv) ، والتي تعمل كأساس لعائلة نماذج EfficientNets.
في الاختبارات ، أظهرت EfficientNets دقة أعلى وكفاءة أفضل من شبكات CNN الحالية ، مما قلل من متطلبات حجم المعلمات والموارد الحسابية بترتيب من حيث الحجم. أظهر أحد الطرازين ، EfficientNet-B7 ، حجمًا أصغر بمقدار 8,4 مرة وأداء أفضل 6,1 مرة من CNN Gpipe المعروف جيدًا ، وحقق أيضًا دقة 84,4٪ و 97,1٪ (نتيجة أعلى 1 وأعلى 5) في الاختبار على مجموعة ImageNet. مقارنةً بـ CNN ResNet-50 الشهير ، أظهر نموذج EfficientNet آخر ، EfficientNet-B4 ، باستخدام موارد مماثلة ، دقة 82,6٪ مقابل 76,3٪ لـ ResNet-50.
حققت نماذج EfficientNets أداءً جيدًا في مجموعات البيانات الأخرى ، وحققت دقة عالية في خمسة من أصل ثمانية اختبارات ، بما في ذلك CIFAR-100 (دقة 91,7٪) و
كتب تان ولي: "من خلال تقديم تحسينات كبيرة في أداء النماذج العصبية ، نتوقع أن تعمل EfficientNets كأساس جديد لتحديات رؤية الكمبيوتر المستقبلية".
شفرة المصدر والبرامج النصية لوحدات معالجة Google Cloud Tensor (TPU) متاحة مجانًا على
المصدر: 3dnews.ru