Τα συνελικτικά νευρωνικά δίκτυα (CNN), εμπνευσμένα από βιολογικές διεργασίες στον ανθρώπινο οπτικό φλοιό, είναι κατάλληλα για εργασίες όπως η αναγνώριση αντικειμένων και προσώπου, αλλά η βελτίωση της ακρίβειάς τους απαιτεί κουραστική και λεπτή ρύθμιση. Αυτός είναι ο λόγος για τον οποίο οι επιστήμονες της Google AI Research εξερευνούν νέα μοντέλα που κλιμακώνουν τα CNN με «πιο δομημένο» τρόπο. Δημοσίευσαν τα αποτελέσματα της δουλειάς τους στο
«Η κοινή πρακτική των μοντέλων κλιμάκωσης είναι να αυξάνουν αυθαίρετα το βάθος ή το πλάτος του CNN και να χρησιμοποιούν υψηλότερη ανάλυση της εικόνας εισόδου για εκπαίδευση και αξιολόγηση», γράφουν ο μηχανικός λογισμικού του προσωπικού Mingxing Tan και ο επικεφαλής επιστήμονας της Google AI Quoc V. Le. «Σε αντίθεση με τις παραδοσιακές προσεγγίσεις που κλιμακώνουν αυθαίρετα τις παραμέτρους του δικτύου, όπως το πλάτος, το βάθος και την ανάλυση εισόδου, η μέθοδός μας κλιμακώνει ομοιόμορφα κάθε διάσταση με ένα σταθερό σύνολο παραγόντων κλιμάκωσης».
Για να βελτιωθεί περαιτέρω η απόδοση, οι ερευνητές υποστηρίζουν τη χρήση ενός νέου δικτύου κορμού, του mobile inverted bottleneck convolution (MBConv), το οποίο χρησιμεύει ως βάση για την οικογένεια μοντέλων EfficientNets.
Σε δοκιμές, το EfficientNets έχει επιδείξει υψηλότερη ακρίβεια και καλύτερη απόδοση από τα υπάρχοντα CNN, μειώνοντας το μέγεθος των παραμέτρων και τις απαιτήσεις υπολογιστικών πόρων κατά μια τάξη μεγέθους. Ένα από τα μοντέλα, το EfficientNet-B7, έδειξε 8,4 φορές μικρότερο μέγεθος και 6,1 φορές καλύτερη απόδοση από το διάσημο CNN Gpipe και πέτυχε επίσης ακρίβεια 84,4% και 97,1% (Top-1 και Top-5). 50 αποτέλεσμα) σε δοκιμές σε το σύνολο ImageNet. Σε σύγκριση με το δημοφιλές CNN ResNet-4, ένα άλλο μοντέλο EfficientNet, το EfficientNet-B82,6, χρησιμοποιώντας παρόμοιους πόρους, πέτυχε ακρίβεια 76,3% έναντι 50% για το ResNet-XNUMX.
Τα μοντέλα EfficientNets είχαν καλή απόδοση σε άλλα σύνολα δεδομένων, επιτυγχάνοντας υψηλή ακρίβεια σε πέντε από τα οκτώ σημεία αναφοράς, συμπεριλαμβανομένου του συνόλου δεδομένων CIFAR-100 (ακρίβεια 91,7%) και
«Παρέχοντας σημαντικές βελτιώσεις στην αποτελεσματικότητα των νευρωνικών μοντέλων, αναμένουμε ότι το EfficientNets έχει τη δυνατότητα να χρησιμεύσει ως νέο πλαίσιο για μελλοντικές εργασίες όρασης υπολογιστή», γράφουν οι Tan και Li.
Ο πηγαίος κώδικας και τα σενάρια εκπαίδευσης για τις μονάδες επεξεργασίας τανυστήρων (TPU) της Google διατίθενται δωρεάν στο
Πηγή: 3dnews.ru