شبکه های عصبی کانولوشنال (CNN) که از فرآیندهای بیولوژیکی در قشر بینایی انسان الهام گرفته شده اند، برای کارهایی مانند تشخیص اشیا و چهره مناسب هستند، اما بهبود دقت آنها نیاز به تنظیم دقیق و خسته کننده دارد. به همین دلیل است که دانشمندان در Google AI Research در حال بررسی مدل های جدیدی هستند که CNN ها را به روشی «ساختارمندتر» مقیاس بندی می کند. آنها نتایج کار خود را در
Mingxing Tan، مهندس نرمافزار کارکنان و Quoc V. Le، دانشمند ارشد هوش مصنوعی گوگل، مینویسند: «عمل رایج مدلهای مقیاسبندی، افزایش خودسرانه عمق یا عرض CNN و استفاده از وضوح بالاتر تصویر ورودی برای آموزش و ارزیابی است.» برخلاف رویکردهای سنتی که به طور دلخواه پارامترهای شبکه مانند عرض، عمق و وضوح ورودی را مقیاس میدهند، روش ما به طور یکنواخت هر بعد را با مجموعهای ثابت از عوامل مقیاسگذاری مقیاس میدهد.
برای بهبود بیشتر عملکرد، محققان از استفاده از یک شبکه ستون فقرات جدید، پیچیدگی گلوگاه معکوس موبایل (MBConv) استفاده می کنند که به عنوان پایه ای برای خانواده مدل های EfficientNets عمل می کند.
در آزمایشها، EfficientNets دقت بالاتر و کارایی بهتری را نسبت به CNNهای موجود نشان داده است، که اندازه پارامتر و نیازهای منابع محاسباتی را با یک مرتبه کاهش میدهد. یکی از مدلها، EfficientNet-B7، 8,4 برابر اندازه کوچکتر و 6,1 برابر عملکرد بهتر نسبت به CNN Gpipe معروف نشان داد و همچنین در آزمایش بر روی آن به دقت 84,4% و 97,1% (نتیجه Top-1 و Top-5) دست یافت. مجموعه ImageNet در مقایسه با CNN ResNet-50 محبوب، مدل EfficientNet دیگر، EfficientNet-B4، با استفاده از منابع مشابه، به دقت 82,6% در مقابل 76,3% برای ResNet-50 دست یافت.
مدلهای EfficientNets روی سایر مجموعههای داده عملکرد خوبی داشتند و در پنج مورد از هشت معیار، از جمله مجموعه داده CIFAR-100 (دقت 91,7 درصد) و دقت بالایی را به دست آوردند.
تان و لی می نویسند: "با ارائه پیشرفت های قابل توجه در کارایی مدل های عصبی، ما انتظار داریم که EfficientNets این پتانسیل را داشته باشد که به عنوان یک چارچوب جدید برای وظایف بینایی کامپیوتری آینده عمل کند."
کد منبع و اسکریپت های آموزشی برای واحدهای پردازش تانسور ابری گوگل (TPU) به صورت رایگان در دسترس هستند
منبع: 3dnews.ru