Le reti neurali convoluzionali (CNN), ispirate ai processi biologici nella corteccia visiva umana, sono adatte per compiti come il riconoscimento di oggetti e volti, ma migliorare la loro accuratezza richiede una messa a punto noiosa e precisa. Ecco perché gli scienziati di Google AI Research stanno esplorando nuovi modelli che "ridimensionano" le CNN in un modo "più strutturato". Hanno pubblicato il risultato del loro lavoro in
"Una pratica comune per il ridimensionamento dei modelli è aumentare arbitrariamente la profondità o la larghezza della CNN, nonché utilizzare una risoluzione più elevata dell'immagine di input per l'addestramento e la valutazione", scrivono l'ingegnere del software interno Mingxing Tan e capo scienziato presso Google AI Quoc Li (Quoc V.le). "A differenza degli approcci tradizionali che ridimensionano arbitrariamente i parametri di rete come larghezza, profondità e risoluzione in entrata, il nostro metodo ridimensiona uniformemente ogni dimensione con un insieme fisso di fattori di ridimensionamento".
Per migliorare ulteriormente le prestazioni, i ricercatori sostengono l'uso di una nuova rete centrale, la convoluzione del collo di bottiglia invertito mobile (MBConv), che funge da base per la famiglia di modelli EfficientNets.
Nei test, EfficientNets ha dimostrato sia una maggiore accuratezza che una migliore efficienza rispetto alle CNN esistenti, riducendo di un ordine di grandezza il requisito per le dimensioni dei parametri e le risorse computazionali. Uno dei modelli, EfficientNet-B7, ha dimostrato dimensioni 8,4 volte inferiori e prestazioni 6,1 volte migliori rispetto al noto CNN Gpipe, e ha anche ottenuto un'accuratezza dell'84,4% e del 97,1% (risultato Top-1 e Top-5) nei test sul Insieme di ImageNet. Rispetto al popolare ResNet-50 della CNN, un altro modello EfficientNet, EfficientNet-B4, che utilizza risorse simili, ha mostrato un'accuratezza dell'82,6% rispetto al 76,3% di ResNet-50.
I modelli EfficientNets hanno ottenuto buoni risultati su altri set di dati, ottenendo un'elevata precisione in cinque test su otto, tra cui CIFAR-100 (precisione del 91,7%) e
"Fornendo miglioramenti significativi nelle prestazioni dei modelli neurali, ci aspettiamo che EfficientNets possa potenzialmente fungere da nuova base per le future sfide della visione artificiale", scrivono Tan e Li.
Il codice sorgente e gli script tutorial per Google Cloud Tensor Processing Unit (TPU) sono disponibili gratuitamente all'indirizzo
Fonte: 3dnews.ru