Convolutional Neural Networks (CNNs), die von biologischen Prozessen im menschlichen visuellen Kortex inspiriert sind, eignen sich gut für Aufgaben wie die Objekt- und Gesichtserkennung, aber die Verbesserung ihrer Genauigkeit erfordert langwierige Feinabstimmung. Aus diesem Grund erforschen Wissenschaftler von Google AI Research neue Modelle, die CNNs „strukturierter“ „skalieren“. Das Ergebnis ihrer Arbeit veröffentlichten sie in
„Eine gängige Vorgehensweise bei der Skalierung von Modellen besteht darin, die Tiefe oder Breite des CNN willkürlich zu erhöhen und eine höhere Auflösung des Eingabebildes für Training und Auswertung zu verwenden“, schreiben der interne Softwareentwickler Mingxing Tan und leitende Wissenschaftler bei Google AI Quoc Li (Quoc V.le). „Im Gegensatz zu herkömmlichen Ansätzen, die Netzwerkparameter wie Breite, Tiefe und eingehende Auflösung willkürlich skalieren, skaliert unsere Methode jede Dimension einheitlich mit einem festen Satz von Skalierungsfaktoren.“
Um die Leistung weiter zu verbessern, plädieren die Forscher für den Einsatz eines neuen Kernnetzwerks, der Mobile Inverted Bottleneck Convolution (MBConv), das als Grundlage für die Modellfamilie EfficientNets dient.
In Tests hat EfficientNets sowohl eine höhere Genauigkeit als auch eine bessere Effizienz als bestehende CNNs gezeigt und den Bedarf an Parametergröße und Rechenressourcen um eine Größenordnung reduziert. Eines der Modelle, EfficientNet-B7, zeigte eine 8,4-mal kleinere Größe und eine 6,1-mal bessere Leistung als das bekannte CNN-Gpipe und erreichte bei Tests auf dem auch eine Genauigkeit von 84,4 % und 97,1 % (Top-1- und Top-5-Ergebnis). ImageNet-Set. Im Vergleich zum beliebten CNN ResNet-50 zeigte ein anderes EfficientNet-Modell, EfficientNet-B4, das ähnliche Ressourcen nutzt, eine Genauigkeit von 82,6 % gegenüber 76,3 % für ResNet-50.
Die EfficientNets-Modelle schnitten bei anderen Datensätzen gut ab und erreichten in fünf von acht Tests eine hohe Genauigkeit, darunter CIFAR-100 (91,7 % Genauigkeit) und
„Durch die Bereitstellung erheblicher Verbesserungen der Leistung neuronaler Modelle gehen wir davon aus, dass EfficientNets möglicherweise als neue Grundlage für zukünftige Herausforderungen im Bereich Computer Vision dienen wird“, schreiben Tan und Li.
Der Quellcode und die Tutorial-Skripte für Google Cloud Tensor Processing Units (TPUs) sind unter frei verfügbar
Source: 3dnews.ru