Convolutional neural Netzwierker (CNNs), inspiréiert vu biologesche Prozesser am mënschleche visuelle Cortex, si gutt gëeegent fir Aufgaben wéi Objekt- a Gesiichtserkennung, awer d'Verbesserung vun hirer Genauegkeet erfuerdert langweileg a feintuning. Dat ass firwat d'Wëssenschaftler bei Google AI Research nei Modeller exploréieren déi CNNs op eng "méi strukturéiert" Manéier skaléieren. Si hunn d'Resultater vun hirer Aarbecht publizéiert
"Déi allgemeng Praxis vu Skalamodeller ass d'Tiefe oder d'Breet vum CNN arbiträr ze erhéijen, a méi héich Opléisung vum Inputbild fir Training an Evaluatioun ze benotzen", schreift Personal Software Ingenieur Mingxing Tan a Google AI Lead Wëssenschaftler Quoc V .Le). "Am Géigesaz zu traditionellen Approchen, déi arbiträr Netzwierkparameter wéi Breet, Déift an Input Resolutioun skaléieren, skaléiert eis Method all Dimensioun eenheetlech mat engem fixe Set vu Skaléierungsfaktoren."
Fir d'Performance weider ze verbesseren, plädéieren d'Fuerscher d'Benotzung vun engem neie Backbone-Netzwierk, mobil invertéiert Flaschenhalskonvolutioun (MBConv), déi als Basis fir d'EfficientNets Famill vu Modeller déngt.
An Tester huet EfficientNets souwuel méi héich Genauegkeet wéi och besser Effizienz bewisen wéi existent CNNs, reduzéiert d'Parametergréisst an d'Rechnerressourcenfuerderunge mat enger Uerdnung vun der Gréisst. Ee vun de Modeller, EfficientNet-B7, huet 8,4 Mol méi kleng Gréisst a 6,1 Mol besser Leeschtung gewisen wéi de berühmte CNN Gpipe, an huet och 84,4% an 97,1% Genauegkeet (Top-1 an Top-5) erreecht. de ImageNet Set. Am Verglach mam populäre CNN ResNet-50, en aneren EfficientNet Modell, EfficientNet-B4, mat ähnleche Ressourcen, huet eng Genauegkeet vun 82,6% versus 76,3% fir ResNet-50 erreecht.
EfficientNets Modeller hunn gutt op anere Datesätz gemaach, fir héich Genauegkeet op fënnef vun aacht Benchmarks z'erreechen, dorënner de CIFAR-100 Dataset (91,7% Genauegkeet) an
"Duerch bedeitend Verbesserungen an der Effizienz vun neurale Modeller erwaarden, datt EfficientNets de Potenzial huet fir als neie Kader fir zukünfteg Computervisiounsaufgaben ze déngen", schreiwen Tan a Li.
Quellcode an Trainingsskripter fir Google's Cloud Tensor Processing Units (TPUs) si fräi verfügbar op
Source: 3dnews.ru