A konvolúciós neurális hálózatok (CNN-ek), amelyeket az emberi látókéregben zajló biológiai folyamatok inspiráltak, kiválóan alkalmasak olyan feladatokra, mint a tárgy- és arcfelismerés, de pontosságuk javítása unalmas és finomhangolást igényel. Éppen ezért a Google AI Research tudósai olyan új modelleket kutatnak, amelyek "strukturáltabb" módon "skálázzák" a CNN-eket. Munkájuk eredményét ben publikálták
„A modellek skálázásának általános gyakorlata a CNN mélységének vagy szélességének önkényes növelése, valamint a bemeneti kép nagyobb felbontásának használata a képzéshez és az értékeléshez” – írja Mingxing Tan, a házon belüli szoftvermérnök és a Google AI vezető tudósa. Quoc Li (Quoc V.le). "Eltérően a hagyományos megközelítésektől, amelyek tetszőlegesen skálázzák a hálózati paramétereket, például a szélességet, a mélységet és a bejövő felbontást, a mi módszerünk egységesen skálázza az egyes dimenziókat meghatározott léptékezési tényezőkkel."
A teljesítmény további javítása érdekében a kutatók egy új maghálózat, a mobil invertált szűk keresztmetszet konvolúció (MBConv) használatát javasolják, amely az EfficientNets modellcsalád alapjaként szolgál.
A tesztek során az EfficientNets nagyobb pontosságot és jobb hatékonyságot mutatott be, mint a meglévő CNN-ek, nagyságrenddel csökkentve a paraméterméretre és a számítási erőforrásokra vonatkozó igényt. Az egyik modell, az EfficientNet-B7 8,4-szer kisebb méretet és 6,1-szer jobb teljesítményt mutatott be, mint a jól ismert CNN Gpipe, valamint 84,4%-os és 97,1%-os pontosságot (Top-1 és Top-5 eredmény) ért el a teszteken. ImageNet készlet. A népszerű CNN ResNet-50-hez képest egy másik EfficientNet modell, az EfficientNet-B4, hasonló erőforrásokat használva 82,6%-os pontosságot mutatott, szemben a ResNet-76,3 50%-ával.
Az EfficientNets modellek jól teljesítettek más adatkészleteken, nyolcból ötben nagy pontosságot értek el, beleértve a CIFAR-100-at (91,7%-os pontosság) és
„A neurális modellek teljesítményének jelentős javításával arra számítunk, hogy az EfficientNets potenciálisan új alapot jelenthet a jövőbeli számítógépes látási kihívásokhoz” – írja Tan és Li.
A Google Cloud Tensor Processing Units (TPU) forráskódja és oktató szkriptjei ingyenesen elérhetők a következő címen:
Forrás: 3dnews.ru