Konvolutionelle neurale netværk (CNN'er), inspireret af biologiske processer i den menneskelige visuelle cortex, er velegnede til opgaver som objekt- og ansigtsgenkendelse, men at forbedre deres nøjagtighed kræver kedelig og finjustering. Det er derfor, forskere hos Google AI Research udforsker nye modeller, der "skalerer" CNN'er på en "mere struktureret" måde. De offentliggjorde resultatet af deres arbejde i
"En almindelig praksis for skalering af modeller er vilkårlig at øge dybden eller bredden af CNN, samt bruge en højere opløsning af inputbilledet til træning og evaluering," skriver intern softwareingeniør Mingxing Tan og ledende videnskabsmand hos Google AI Quoc Li (Quoc V .le). "I modsætning til traditionelle tilgange, der vilkårligt skalerer netværksparametre såsom bredde, dybde og indgående opløsning, skalerer vores metode ensartet hver dimension med et fast sæt skaleringsfaktorer."
For yderligere at forbedre ydeevnen anbefaler forskerne brugen af et nyt kernenetværk, den mobile inverterede flaskehalskonvolution (MBConv), som tjener som grundlag for EfficientNets-modellerne.
I test har EfficientNets demonstreret både højere nøjagtighed og bedre effektivitet end eksisterende CNN'er, hvilket reducerer kravet til parameterstørrelse og beregningsressourcer med en størrelsesorden. En af modellerne, EfficientNet-B7, viste 8,4 gange mindre størrelse og 6,1 gange bedre ydeevne end det velkendte CNN Gpipe, og opnåede også 84,4 % og 97,1 % nøjagtighed (Top-1 og Top-5 resultater) i test på ImageNet sæt. Sammenlignet med den populære CNN ResNet-50 viste en anden EfficientNet-model, EfficientNet-B4, der bruger lignende ressourcer, en nøjagtighed på 82,6 % mod 76,3 % for ResNet-50.
EfficientNets-modellerne klarede sig godt på andre datasæt og opnåede høj nøjagtighed i fem ud af otte tests, inklusive CIFAR-100 (91,7 % nøjagtighed) og
"Ved at levere betydelige forbedringer i ydeevnen af neurale modeller forventer vi, at EfficientNets potentielt kan tjene som et nyt grundlag for fremtidige computersynsudfordringer," skriver Tan og Li.
Kildekoden og selvstudiescripts til Google Cloud Tensor Processing Units (TPU'er) er gratis tilgængelige på
Kilde: 3dnews.ru