Згорткавыя нейронавыя сеткі (англ.: Convolutional neural networks - CNN), натхнёныя біялагічнымі працэсамі ў глядзельнай кары чалавека, добра падыходзяць для такіх задач, як распазнанне аб'ектаў і асоб, але павышэнне дакладнасці іх працы патрабуе стомнай і тонкай налады. Вось чаму навукоўцы з даследчага аддзела Google AI вывучаюць новыя мадэлі, якія "маштабуюць" CNN "больш структураваным" спосабам. Вынік сваёй працы яны апублікавалі ў
"Звычайная практыка маштабавання мадэляў заключаецца ў адвольным павелічэнні глыбіні або шырыні CNN, а таксама выкарыстанні большага дазволу ўваходнага малюнка для навучання і ацэнкі", – пішуць штатны інжынер-праграміст Мінсінг Тан (Mingxing Tan) і вядучы вучоны ў Google AI Куок Лі (Quoc V .Le). "У адрозненне ад традыцыйных падыходаў, якія адвольна маштабуюць параметры сеткі, такія як шырыня, глыбіня і ўваходнае дазвол, наш метад раўнамерна маштабуе кожнае вымярэнне з фіксаваным наборам каэфіцыентаў маштабавання".
Для далейшага павышэння прадукцыйнасці даследчыкі выступаюць за выкарыстанне новай базавай сеткі – мабільнай інвертаванай скруткі вузкага месца (англ. mobile inverted bottleneck convolution – MBConv), якая служыць асновай для сямейства мадэляў EfficientNets.
У тэстах EfficientNets прадэманстравала як больш высокую дакладнасць, так і лепшую эфектыўнасць у параўнанні з існуючымі CNN, на парадак паменшыўшы патрабаванне да памеру параметраў і вылічальных рэсурсаў. Адна з мадэляў – EfficientNet-B7, прадэманстравала ў 8,4 разы меншы памер і ў 6,1 разы лепшую прадукцыйнасць, чым вядомая CNN Gpipe, а таксама дасягнула 84,4% і 97,1% дакладнасці (Топ-1 і Топ- 5 вынік) у тэсціраванні на наборы ImageNet. У параўнанні з папулярнай CNN ResNet-50, іншая мадэль EfficientNet – EfficientNet-B4, выкарыстоўваючы аналагічныя рэсурсы, прадэманстравала дакладнасць у 82,6% супраць 76,3% у ResNet-50.
Мадэлі EfficientNets добра паказалі сябе і на іншых наборах дадзеных, дасягнуўшы высокай дакладнасці ў пяці з васьмі тэстаў, у тым ліку наборы CIFAR-100 (дакладнасць 91,7%) і
"Забяспечваючы значныя паляпшэнні эфектыўнасці нейронавых мадэляў, мы чакаем, што EfficientNets патэнцыйна можа паслужыць новай асновай для будучых задач у галіне кампутарнага зроку", – пішуць Тан і Лі.
Зыходны код і навучальныя сцэнары для хмарных тэнзарных працэсараў (TPU) ад Google знаходзяцца ў вольным доступе на
Крыніца: 3dnews.ru